python日志分析

日志2019-07-09 13:06书业网

篇一：实战Scribe日志搜集和数据分析

简单说一下，Scribe是Facebook开源的分布式日志搜集系统，架构简单，日志格式灵活，且支持异步发送消息和队列。非常适合用于用户行为分析的基础数据收集，支持hadoop。配合thrift，可以跨语言和平台进行数据收集，非常优秀，性能也非常卓越。

Scribe提供两种不同的架构可供选择，单Server，或C/S。从系统调用上说，Scribe之所以性能卓越，是因为采用了epoll方式，这个就不解释了。简单描述一下Scribe可以设置的几种架构方式。

不过要明确一个概念，Scribe不是抓取日志的东西，而是Push日志的东西

一、架构设计

1. Server，适用于压力较小的网站或服务。日志流程如下

用户 --> WebServer --> Scribe --> 存储 --> 分析 --> 展示

用户 --> WebServer -------|

记录日志的程序框架由thrift自动生成，只需include或者import即可。

2.C/S结构，适合访问量大的网站和服务，并可根据需要进行平行扩展，采用散列的方式分配服务器压力。

用户 --> WebServer1 --> ScribeClient --> ScribeServer-->存储-->分析-->展示用户 --> WebServer2--------|

用户 --> WebServer3--------|

Client及Server均可进行水平扩展，在程序中设置hash访问。

二、安装配置及使用方法(FreeBSD为例)

1.安装Scribe

最新的ports列表中，Scribe及fb303均配置为损坏，所以我们用直接安装二进制的方式进行，事实上，这样更加简单快捷。

#pkg_add -r scribe

#pkg_add -r thrift

#pkg_add -r fb303

这样就完事了。

在ubuntu下，你需要apt-get依赖包，在centos下，抱歉，yum太糟糕了。你需要自己下一堆的依赖文件，然后rpm安装或者花几个小时去逐个编译。

主要的依赖包包括，

python,python-dev,boost,boost-lib,perl,libtool,pkgconfig,m4,autoconf,automake,g++,ruby,ruby-dev.再多的我也记不清了。

FreeBSD下还需要做一件事，就是提取配置文件，我建议你下载scribe和thrift的源码包，然后解压缩，但不要编译安装，我们需要的只是他的配置文件。

然后执行

#cd /usr/ports/net/scribe/work/scribe-2.2/examples

#cp example* /usr/local/etc/

#cd /usr/local/etc/

#mv example1.conf scribe.conf

#cd /usr/local/etc/rc.d

#./scribe start

这样你的scribe server就启动了。

2.生成你的头文件

这需要用到thrift

请找到fb303.thrift和scribe.thift，至于怎么找，自己想办法把。放到相同的目录下，修改scribe.thrift中包含fb303的路径为当前路径。然后执行

#thrift -r --gen php scribe.thrift

会在当前目录下生成gen-php的文件夹，你所需要的php框架文件都在这个文件夹下。

如果你需要生成c++,java,python,ruby甚至erlang, haskball，就将命令行中的php替换为这些单词。

3.编写你的第一个scribe收集程序。

把你的gen-php mv 成thrift或者其他你喜欢的名字然后vi一个文件，内容如下：

$GLOBALS['THRIFT_ROOT'] = './thrift';

include_once $GLOBALS['THRIFT_ROOT'] . '/scribe/scribe.php';

include_once $GLOBALS['THRIFT_ROOT'] . '/transport/TSocket.php';

include_once $GLOBALS['THRIFT_ROOT'] . '/transport/TFramedTransport.php'; include_once $GLOBALS['THRIFT_ROOT'] . '/protocol/TBinaryProtocol.php';

$msg1['category'] = 'Test';

$msg1['message'] = "a,b,c,d,e,f,g";

$entry1 = new LogEntry($msg1);

$messages = array($entry1);

$socket = new TSocket('localhost', 1463, true);

$transport = new TFramedTransport($socket);

$protocol = new TBinaryProtocol($transport, false, false);

$scribe_client = new scribeClient($protocol, $protocol);

$transport->open();

$scribe_client->Log($messages);

$transport->close();

通过web浏览器访问这个程序，我现在假设你已经有一个webserver了。然后去/tmp/scribetest/下查看生成日志文件，正常的话，会生成一个叫Test的文件夹，下面有一个叫Test_00000的文件，内容就是：a,b,c,d,f,g。你可以写任何的东西，只要你觉得将来统计起来方便。

3.配置scribe

当然仅仅这样是不够的，我们需要自定义配置文件好完成诸如日志的rotate，存储路径的设定，甚至是直接往hadoop里面写数据。

我给出一个典型的配置文件，这里包含了rotate，路径设定，多重存储等。

port=1463

max_msg_per_second=2000000

check_interval=3

<store>

category=default

type=multi

target_write_size=20480

max_write_interval=1

buffer_send_rate=2

retry_interval=30

retry_interval_range=10

type=file #类型，文件

fs_type=std #方式，包括std和hdfs

file_path=/data/logs #存储路径

base_filename=thisisoverwritten

max_size=1000000000 #日志文件最大，超过将自动rotate，字节计算

rotate_period=daily #以时间rotate，可以写成300s(秒)，hourly

add_newlines=1

create_symlink=no #不创建符号链接

</store0>

type=file

fs_type=hdfs

file_path=hdfs://localhost:9090/logs

base_filename=thisisoverwritten

max_size=1000000

add_newlines=1

create_symlink=no

</store1>

</store>

用到hadoop的话，你需要为scribe编译libhdfs。

二、日志分析

由于日志格式是由你自己定义的，所以分析起来会比较轻松。

1.一个日志文件，1.log，字段以","分割。

202.163.4.5,12345678901,111,123

202.153.3.6,12345678901,111,124

202.153.7.3,12345678901,112,125

202.17.23.3,12345678901,112,126

211.98.76.5,12345678901,113,127

218.22.24.5,13330080923,113,128

需要统计第四列非空的行数(awk实现)：

#cat 1.awk

BEGIN{ total=0;FS="," }

{

$4!~//;

total+=1;

}

END{ print total}

#awk -f 1.awk 1.log

统计第三列去重，并统计出现的次数

#cat 2.awk

BEGIN{FS=","}

{

a[$3]++;

}

END {for(i in a)print i,":" a[i]}

#awk -f 2.awk 1.log

111:2 112:2

113:2

计算第四列的总和

#cat 3.awk

BEGIN{FS=",";sum=0}

{

sum+=$4;

}

END{print sum}

#awk -f 3.awk 1.log

753

基本的使用和统计就是这样，非常轻松就能统计很多数据，比分析NCSA的日志方便太多了。

hadoop要写的话就太多了，另开篇幅吧。

2011-11-19更新

特别说明：不要认为Scribe只能用于网站应用，他可以用于任何方面的数据收集，如果你有客户端程序，可以用thrift生成C++ header，

篇二：5种mysql日志分析工具比拼

mysql slow log 是用来记录执行时间较长(超过long_query_time秒)的sql的一种日志工具.

启用 slow log

有两种启用方式:

1, 在my.cnf 里通过 log-slow-queries[=file_name]

2, 在mysqld进程启动时,指定?log-slow-queries[=file_name]选项

比较的五款常用工具

mysqldumpslow, mysqlsla, myprofi, mysql-explain-slow-log, mysqllogfilter

mysqldumpslow, mysql官方提供的慢查询日志分析工具. 输出图表如下

主要功能是, 统计不同慢sql的

出现次数(Count),

执行最长时间(Time),

累计总耗费时间(Time),

等待锁的时间(Lock),

发送给客户端的行总数(Rows),

扫描的行总数(Rows),

用户以及sql语句本身(抽象了一下格式, 比如 limit 1, 20 用 limit N,N 表示).

mysqlsla, hackmysql.com推出的一款日志分析工具(该网站还维护了 mysqlreport, mysqlidxchk 等比较实用的mysql工具

)

整体来说, 功能非常强大. 数据报表,非常有利于分析慢查询的原因, 包括执行频率, 数据量, 查询消耗等.

格式说明如下:

总查询次数 (queries total), 去重后的sql数量 (unique)

输出报表的内容排序(sorted by)

最重大的慢sql统计信息, 包括平均执行时间, 等待锁时间, 结果行的总数, 扫描的行总数.

Count, sql的执行次数及占总的slow log数量的百分比.

Time, 执行时间, 包括总时间, 平均时间, 最小, 最大时间, 时间占到总慢sql时间的百分比.

95% of Time, 去除最快和最慢的sql, 覆盖率占95%的sql的执行时间.

Lock Time, 等待锁的时间.

95% of Lock , 95%的慢sql等待锁时间.

Rows sent, 结果行统计数量, 包括平均, 最小, 最大数量.

Rows examined, 扫描的行数量.

Database, 属于哪个数据库

Users, 哪个用户,IP, 占到所有用户执行的sql百分比

Query abstract, 抽象后的sql语句

Query sample, sql语句

除了以上的输出, 官方还提供了很多定制化参数, 是一款不可多得的好工具.

mysql-explain-slow-log, 德国人写的一个perl脚本.

功能上有点瑕疵, 不仅把所有的 slow log 打印到屏幕上, 而且统计也只有数量而已. 不推荐使用.

mysql-log-filter, google code上找到的一个分析工具.提供了 python 和 php 两种可执行的脚本.

功能上比官方的mysqldumpslow, 多了查询时间的统计信息(平均,最大, 累计), 其他功能都与 mysqldumpslow类似.

特色功能除了统计信息外, 还针对输出内容做了排版和格式化, 保证整体输出的简洁. 喜欢简洁报表的朋友, 推荐使用一下.myprofi, 纯php写的一个开源分析工具.项目在 sourceforge 上.

篇三：基于Mahout框架的Hadoop平台作业日志分析平台设计与实现--曹政

基于Mahout框架的Hadoop平台作业日志分析平台

设计与实现

曹1政

（北京邮电大学计算机科学与技术学院,北京 100876）

摘要：随着Hadoop的流行与Hadoop Yarn的出现，集群的规模越来越大。在Hadoop生态圈中对集群运行状态的开源实现已经很成熟，但是尚未有对一个对Hadoop作业的运行趋势进行统计分析的平台。本文介绍了一个面向Hadoop Yarn的作业资源统计分析平台，面向集群管理员与普通用户，以时间、用户双维度对作业进行统计分析，得出一个Hadoop作业运行的标准。

关键词：关键词1；数据分析；2；Hadoop；3;Yarn；4;作业分析;5；机器学习;5；Mahout

中图分类号：TP399 文献标识码：A

The Design And Implementation Of Hadoop’s Log Statistics Analysis System Based On Mahout

Cao Zheng1

1(School of Computer Science and Technology, Beijing University of Posts and Telecommunications, Beijing

100876, China)

【Abstract 】 With the wild use of Hadoop and appearance of Hadoop Yarn, the scale of clusters is getting larger. And the Open source implementation of the clusters operating state monitor system in the Hadoop ecosystem has been very mature, but there is not yet a platform for statistical analysis of the running trend of the Hadoop Jobs. In this paper, a job resource statistical analysis platform Yarn Hadoop is presented, which is for the Cluster Administrator and the ordinary users, with the double dimension of date and user to analyze the job, and get the standard of Hadoop operation.

【Key words】Big Data; Hadoop;Yarn;Job Analyzer; Machine Learning;Mahout

0 引言

由Google公司于2004年提出的MapReduce并行计算框架目前被广泛应用于解决大规模数据处理问题。Hadoop是Apache基金会所开发的分布式系统基础架构，是Google的MapReduce编程模型的开源实习。由于Hadoop生态圈的日渐成熟，Hadoop逐渐成为许多互联网公司基础计算平台的一个核心部分。本系统在实现一个面向Hadoop生态圈的一个增强的监控分析平台。

MapReduce拥有诸多良好特性,如负载平衡、高可扩展性以及容错等[1]。MapReduce是当前工业界和学术界最有效的大规模数据处理问题并行解决方案之一[2]。但由于Hadoop编程的可控性与编程人员的参差不齐，在Hadoop集群的使用过程中经常发生难以预料的错误。Hadoop日志是用户定位问题的最重要渠道，Hadoop集群也专门配置了History Server来让开发人员使用以了解其提交的作业执行情况，比如用了多少个Map、用了多少个Reduce、作业提交时间、作业启动时间、作业完成时间等信息。但对较长期的日志展示分析效果欠佳，集群管理人员和开发人员难以了解整个集群的指标聚合指标[3]。

本系统旨在基于Hadoop集群记录的作业运行日志和配置信息，统计作业在时间和用户两个维度上的运行指标，并针对一个具体作业，分析作业内任务的执行情况，进而为作业优化提供数据参考。目前笔者使用的线上集群规模为500台主机，内存为32TB，日均JOB数为两万左右。传统的作业分析软件如集群监控软件：Nigos、Ganglia、Flume等已无法满足作者简介: 曹政(1989-), 男,北京邮电大学硕士研究生, 主要研究方向为网络管理、大数据平台架构

监控需求，普通用户与集群管理员都迫切需要一个任务分析平台

1. hadoop生态圈相关简介

Hadoop是一个集成了了分布式文件系统HDFS和大规模并行计算模型 MapReduce 的开源框架。简单地说来，Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。在Hadoop的生态圈中，一系列的为了处理超过单机尺度的数据处理的框架因此诞生。本文主要涉及了Yarn(MRv2)、Mahout、HDFS、Hive、Spark等[4]。

1.1MapReduce——Hadoop的核心

图1 MapReduce架构图

Google的网络搜索引擎在得益于算法发挥作用的同时，MapReduce在后台发挥了极大的作用。MapReduce框架成为当今大数据处理背后的最具影响力的“发动机”。除了Hadoop，你还会在MapReduce上发现MPP（Sybase IQ推出了列示数据库）和NoSQL（如Vertica和MongoD(来自:WWw.cssyq.Com 书业网:python日志分析)B）[5]。

MapReduce的重要创新是当处理一个大数据集查询时会将其任务分解并在运行的多个节点中处理。当数据量很大时就无法在一台服务器上解决问题，此时分布式计算优势就体现出来。将这种技术与Linux服务器结合可获得性价比极高的替代大规模计算阵列的方法[6]。Yahoo在2006年看到了Hadoop未来的潜力，并邀请Hadoop创始人Doug Cutting着手发展Hadoop技术，在2008年Hadoop已经形成一定的规模。Hadoop项目再从初期发展的成熟的过程中同时吸纳了一些其他的组件，以便进一步提高自身的易用性和功能。

1.2HDFS和MapReduce

对于分布式计算，每个服务器必须具备对数据的访问能力，是HDFS（Hadoop Distributed

[7]File System）所起到的作用。HDFS与MapReduce的结合是强大的。在处理大数据的过程

中，当Hadoop集群中的服务器出现错误时，整个计算过程并不会终止。同时HFDS可保障在整个集群中发生故障错误时的数据冗余。当计算完成时将结果写入HFDS的一个节点之中。HDFS对存储的数据格式并无苛刻的要求，数据可以是非结构化或其它类别。相反关系数据库在存储数据之前需要将数据结构化并定义架构。

开发人员编写代码责任是使数据有意义。Hadoop MapReduce级的编程利用Java APIs，并可手动加载数据文件到HDFS之中。

1.3Pig和Hive

对于开发人员，直接使用Java APIs可能是乏味或容易出错的，同时也限制了Java程序员在Hadoop上编程的运用灵活性。于是Hadoop提供了两个解决方案，使得Hadoop编程变得更加容易。

Pig是一种编程语言，它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果。Pig内置的操作使得半结构化数据变得有意义（如日志文件）。同时Pig可扩展使用Java中添加的自定义数据类型并支持数据转换[8]。

Hive在Hadoop中扮演数据仓库的角色。Hive添加数据的结构在HDFS（hive superimposes structure on data in HDFS），并允许使用类似于SQL语法进行数据查询。与Pig一样，Hive的核心功能是可扩展的。

Pig和Hive总是令人困惑的。Hive更适合于数据仓库的任务，Hive主要用于静态的结构以及需要经常分析的工作。Hive与SQL相似促使其成为Hadoop与其他BI工具结合的理想交集。Pig赋予开发人员在大数据集领域更多的灵活性，并允许开发简洁的脚本用于转换数据流以便嵌入到较大的应用程序。Pig相比Hive相对轻量，它主要的优势是相比于直接使用Hadoop Java APIs可大幅削减代码量。正因为如此，Pig仍然是吸引大量的软件开发人员。

1.4Hadoop Yarn

Apache Hadoop YARN （Yet Another Resource Negotiator，另一种资源协调者）是一种新的 Hadoop 资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处[9]。YARN最初是为了修复MapReduce实现里的明显不足，并对可伸缩性、可靠性和集群利用率进行了提升。

本文采用的是Hadoop 2.20，采用Yarn作为研究框架因为其出色的资源管理与良好的对接其他集群框架， Hive与Spark的资源都由其进行分配(Spark on Yarn、Hive on Yarn)。

1.5Hadoop日志系统

Hadoop自带了一个历史服务器，可以通过历史服务器查看已经运行完的Mapreduce作业记录。可以在相应History Server的19888端口上打开历史服务器的WEB UI界面。可以查看已经运行完的作业情况。

并且Hadoop有众多的开源日志系统： Facebook的scribe、Apache的Chukwa、LinkedIn的Kafka、Cloudera的Flume。其旨在构建应用系统和分析系统的桥梁，并将它们之间的关联解耦；支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统；并具有高可扩展性。

1.6Mahout框架

Mahout 是 Apache Software Foundation（ASF）旗下的一个开源项目，提供一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现，包括聚类、分类、推荐过滤、频繁子项挖掘[10]。

图2 Mahout架构图

通过使用 Apache Hadoop 库，Mahout 可以有效地扩展到云中。Mahout 支持一些集群算法实现（都是使用 Map-Reduce 编写的），它们都有一组各自的目标和标准：

Canopy：一种快速集群算法，通常用于为其他集群算法创建初始种子。

k-Means（以及模糊 k-Means）：根据项目与之前迭代的质心（或中心）之间的距离将项目添加到 k 集群中。

Mean-Shift：无需任何关于集群数量的推理知识的算法，它可以生成任意形状的集群。 Dirichlet：借助基于多种概率模型的集群，它不需要提前执行特定的集群视图。

2. 系统设计

2.1系统架构

本系统旨在基于作业的运行日志和配置信息，在时间和用户维度上统计分析作业的多种运行指标。作业的日志和配置数据从HDFS到HBase的同步，主要使用增量同步的方法实现，由于系统所有的统计分析指标（如某小时某个用户提交的作业总数等）都以小时为最小统计分析单位，因此数据同步单元也只需每隔一个小时同步一次数据，将这一小时内最新的作业日志和配置信息格式化后装载HBase。在Python中，Snakebite库提供了优秀的HDFS文件读写能力，其基于RPC访问Hadoop进行文件的读写，且方便易用，因此系统使用Snakebite完成作业日志和配置文件的读取操作。

图3 系统架构图

图3中描述了本系统的整体架构，考虑到日志数据的快速增长以及快速查询的需求，原始的作业日志和配置信息保存在HDFS，通过系统提供的数据同步单元将作业的日志和配置信息结构化后保存到HBase中，作业调度单元周期性地检查HBase，并将HBase中最新的作业信息使用Hive或者直接利用HBase Shell进行分析统计，最终将完成统计分析的数据保存在MySQL，以提供数据查询API访问。

HBase能够提供海量数据的存储设施，其支持列扩充，本系统涉及的大量分析统计工作，绝大部分是对各项指标的汇总操作，HBase足以提供这样的能力。此外，HBase也可以与Hive结合使用，以增强HBase Shell的统计分析能力[11]。

2.2Hadoop作业日志系统概述

Hadoop集群记录的作业运行日志在“mapreduce.jobhistory.done-dir”中配置，其内容保存了作业运行过程中触发的所有事件，如JOB_SUBMITTED、 JOB_INITED、TASK_STARTED、 MAP_ATTEMPT_STARTED、 MAP_ATTEMPT_FAILED、 MAP_ATTEM PT_KILLED、 MAP_ATTEMPT_FINISHED、 TASK_FINISHED、 TASK_FAILED、 REDUCE _ATTEMPT_FAILED、 REDUCE__ATTEMPT_KILLED、 REDUCE_ATTEMPT_FINISHED、JOB_FAILED、 JOB_KILLED、 JOB_FINISHED等等，每一个事件包含若干属性，如JOB_SUBMITTED就包含jobid、 jobName、 userName和submitTime等。

图4 Hadoop History Server的Job日志展示图

在Hadoop作业中存在以下三个概念：作业（Job）、任务（Task）和Attempt，一个作业通常包含多个Map或者Reduce任务，一个任务在正常情况下只通过一次Attempt完成执行，如果该Attempt执行失败，则再次启动一个Attempt尝试执行。在集群作业运行日志中，Attempt、任务和作业都包含一个关键的运行统计指标Counter。Attempt的Counter统计该Attempt执行的资源消耗情况，任务的Counter卷积该任务包含的所有的Attempt的Counter，同理，作业的Counter汇总该作业包含的所有的任务的Counter。

本系统中，只关心作业和任务两个级别的Counter。一个Map任务的Counter包含以下三种类型统计数据：文件系统、Map任务和FileInputFormat。一个Reduce任务类似地也包含三种类型的统计数据：文件系统、Reduce任务和FileOutputFormat。一个作业的Counter除文件系统、任务（Map和Reduce指标全集）、InputFormat和OutputFormat外，还包括作业统计数据。

级别

作业

Map任务

Reduce任务包含的Counter类型 FileSystem、Job、Task、FileInputFormat、FileOutputFormat FileSystem、Map Task、FileInputFormat FileSystem、Reduce Task、FileOutputFormat

表1 作业日志各级别上所包含的Counter的类型

作业运行的指标具体包括：

类别

基本指标作业总数（Finished、Failed、Killed）、Map任务总数（Finished、Failed、Killed）、

Reduce任务总数（Finished、Failed、Killed）、作业占用总时间（Finished、Failed、

Killed）、Map任务占用总时间（Finished、Failed、Killed）、Reduce任务占用总

篇四：教你如何成为一名数据分析师

数据分析新手入门资料（系列一）

来源：西线学院

什么是数据分

析？ ........................................... 2如何用数

据？ ............................................... 5 在数据分析、挖掘方面，有哪些好书值得推荐（43本

全）？ ....... 6

一、到底什么是数据分析

之前在微博上发起一个话题，大家一句话向外行说说什么是数据分析?有100多位同学参与讨论和转发，其中一些有意思的、不错的说法，大家一起来看看。最专业的数据分析：

@沈浩老师: 有针对性的收集、加工、整理数据，并采用统计和挖掘技术分析和解释数据的科学与艺术!

最简洁的数据分析：

@小蚊子乐园：简单的很，就是分析数据。

@Terensu：描述数据特征，预测数据趋势，展示分析结果。

@wangman02：从一大堆数据中提取到你想要的信息，就是数据分析。最IT的数据分析：

@穆浩然：所以我一般都说我是做IT的。

@YicoLeung:复制粘贴。

@仓鼠_茄子把：你应该对男的低调说自己是码农，对女的高调说自己是分析师!现在甭管是什么职业，加个师字就显得特牛B，比如策划师,揉奶师,面包师,搬砖师等等。

最浪漫的数据分析：

@数据化管理：数据分析就是：茫茫人海中，你通过观察、跟踪、记录等手段找到你生命中最想爱的那个人，进而根据对方的喜好，成功的展示了自己的优点，改进了自己的缺点，并且说服了对方的父母，承诺终身与ta为伴的一项工作。 @刘万祥ExcelPro: 你喜欢上一个姑娘，你会搜集她的兴趣、爱好、星座、闺密、乃至三围。。。等等各种信息吧，然后想自己怎么能搭讪上、约出来，碰壁了会继续找原因、想办法，这里面你都有在做数据分析呀。

@CIVN可视化社区：从你每天发的微博研究你喜欢哪个明星、是哪个星座的、喜欢吃什么买什么、大概几岁会嫁出去。

最神化的数据分析：

@张启仁：数据分析是算命的。

最实用的数据分析：

@ETwise:我告诉别人：你买了牙膏我还会推荐你买牙刷，我就是做这样的工作

的。

@老仲琢磨：可以知道刚当爹的男人买尿布时最可能顺便买点啥。

@张勇往前行：每个月月底，老婆问你，这个月的钱你是怎么花的?你的回答就是数据分析。

最恐怖的数据分析：

@游走的背包：数据分析就是文革时的查人祖上三代，最后定义你这代什么成份! @宝泥马冷死了：从你爸的日常行为统计中推测你下次考试不及格他会用什么东西揍你。

那到底什么是数据分析呢?

说说数据哥的理解：数据分析是基于商业目的，有目的的进行收集、整理、加工和分析数据，提炼有价信息的一个过程。

其过程概括起来主要包括：明确分析目的与框架、数据收集、数据处理、数据分析、数据展现和撰写报告等6个阶段。

1、明确分析目的与框架

一个分析项目，你的数据对象是谁?商业目的是什么?要解决什么业务问题?数据分析师对这些都要了然于心。

基于商业的理解，整理分析框架和分析思路。例如，减少新客户的流失、优化活动效果、提高客户响应率等等。不同的项目对数据的要求，使用的分析手段也是不一样的。

2、数据收集

数据收集是按照确定的数据分析和框架内容，有目的的收集、整合相关数据的一个过程，它是数据分析的一个基础。

3、数据处理

数据处理是指对收集到的数据进行加工、整理，以便开展数据分析，它是数据分析前必不可少的阶段。这个过程是数据分析整个过程中最占据时间的，也在一定程度上取决于数据仓库的搭建和数据质量的保证。

数据处理主要包括数据清洗、数据转化等处理方法。

4、数据分析

数据分析是指通过分析手段、方法和技巧对准备好的数据进行探索、分析，从中发现因果关系、内部联系和业务规律，为商业目提供决策参考。

到了这个阶段，要能驾驭数据、开展数据分析，就要涉及到工具和方法的使用。其一要熟悉常规数据分析方法，最基本的要了解例如方差、回归、因子、聚类、分类、时间序列等多元和数据分析方法的原理、使用范围、优缺点和结果的解释;其二是熟悉1+1种数据分析工具，Excel是最常见，一般的数据分析我们可以通过Excel完成，后而要熟悉一个专业的分析软件，如数据分析工具

SPSS/SAS/R/Matlab等，便于进行一些专业的统计分析、数据建模等。

5、数据展现

一般情况下，数据分析的结果都是通过图、表的方式来呈现，俗话说：字不如表，表不如图。。借助数据展现手段，能更直观的让数据分析师表述想要呈现的信息、观点和建议。。

常用的图表包括饼图、折线图、柱形图/条形图、散点图、雷达图等、金字塔图、矩阵图、漏斗图、帕雷托图等。

python日志分析

搜索

最新文章

热门文章

随机文章

python日志分析

相关阅读

搜索

最新文章

热门文章

随机文章