数据分析的八个流程
数据分析的八个流程
企服解答
数据分析的八个流程包括:1、目标的确定;2、数据获取;3、数据清洗;4、数据整理;5、描述分析;6、展现和输出;7、洞察结论;8、报告撰写。
1、目标的确定
这一步在工作中通常是由你的客户/上级/其他部门同事/合作方提出来的,但第一次的数据报告中,需要你自己来提出并确定目标。
选择目标时,请注意以下几点:选择一个你比较熟悉,或者比较感兴趣的领域/行业;选择一个范围比较小的细分领域/细分行业作为切入点;确定这个领域/行业有公开发表的数据/可以获取的UGC内容(论坛帖子,用户点评等)。
2、数据获取
目标定下来了,接下来要去找相应的数据。如果你制定目标时完全遵循了第一步的三个注意点,那么你现在会很明确要找哪些数据。获取目标数据的三类方法:一是从一些有公开数据的网站上复制/下载,比如统计局网站,各类行业网站等,通过搜索引擎可以很容易找到这些网站。二是通过一些专门做数据整理打包的网站/api来下载,如果你要找金融类的数据,这种方法比较实用。其他类型的数据也有人做,但通常要收费。三是自行收集所需数据,比如用爬虫工具爬取点评网站的商家评分、评价内容等,或是直接自己人肉收集(手工复制下来),亦或是找一个免费问卷网站做一份问卷然后散发给你身边的人,都是可以的。
3、数据清洗
在工作中,90%以上的情况,你拿到的数据都需要先做清洗工作,排除异常值、空白值、无效值、重复值等等。这项工作经常会占到整个数据分析过程将近一半的时间。如果在上一步中,你的数据是通过手工复制/下载获取的,那么通常会比较干净,不需要做太多清洗工作。但如果数据是通过爬虫等方式得来,那么你需要进行清洗,提取核心内容,去掉网页代码、标点符号等无用内容。无论你采用哪一种方式获取数据,请记住,数据清洗永远是你必须要做的一项工作。
4、数据整理
清洗过后,需要进行数据整理,即将数据整理为能够进行下一步分析的格式,对于初学者,用Excel来完成这一工作就OK。
如果你的数据已经是表格形式,那么计算一些二级指标就好,比如用今年销量和去年销量算出同比增长率。鉴于你是第一次做数据报告,建议你不要计算太多复杂的二级指标,基本的同比、环比、占比分布这些就OK。如果你收集的是一些非数字的数据,比如对商家的点评,那么你进行下一步统计之前,需要通过“关键词-标签”方式,将句子转化为标签,再对标签进行统计。
5、描述分析
描述分析是最基本的分析统计方法,在实际工作中也是应用最广的分析方法。描述统计分为两大部分:数据描述和指标统计。数据描述:用来对数据进行基本情况的刻画,包括:数据总数、时间跨度、时间粒度、空间范围、空间粒度、数据来源等。如果是建模,那么还要看数据的极值、分布、离散度等内容。这次我们是零基础做数据报告,那么就不用考虑后一类数据了。
6、将数据展现和输出
将数据可视化也是一个学问。如何用合适的图表表现?每一种图表的寓意是什么?下面列举下常用的8个图表:
折线图:合适用于随时间而变化的连续数据,例如随时间收入变化,及增长率变化。
柱型图:主要用来表示各组数据之间的差别。主要有二维柱形图、三维柱形图、圆柱图、圆锥图和棱锥图。
堆积柱形图:堆积柱形图不仅可以显示同类别中每种数据的大小,还可以显示总量的大小。
线-柱图:这种类型的图不仅可以显示出同类别的比较,还可以显示出趋势情况。
条形图:类似于横向的柱状图,和柱状图的展示效果相同,主要用于各项类的比较。
饼图:主要显示各项占比情况。饼图一般慎用,除非占比区别非常明显。因为肉眼对对饼图的占比比例分辨并不直观。而且饼图的项,一般不要超过6项。6项后建议用柱形图更为直观。
复合饼图:一般是对某项比例的下一步分析。
母子饼图:可直观地分析项目的组成结构与比重
图表不必太花哨,一个表说一个问题就好。用友好的可视化图表,节省阅读者的时间,也是对阅读者的尊重。
7、洞察结论
这一步是数据报告的核心,也是最能看出数据分析师水平的部分。一个年轻的分析师和一个年迈的分析师拿到同样的图表,完全有可能解读出不同的内容。
8、报告撰写
都到这一步了,相信各位对数据报告也不再陌生了。这一步中,需要保证的是数据报告内容的完整性。
一个完整的数据报告,应至少包含以下六块内容:报告背景、报告目的、数据来源、数量等基本情况、分页图表内容及本页结论、各部分小结及最终总结、下一步策略或对趋势的预测。
其中,背景和目的决定了你的报告逻辑(解决什么问题);数据基本情况告诉对方你用了什么样的数据,可信度如何;分页内容需要按照一定的逻辑来构建,目标仍然是解决报告目的中的问题;小结及总结必不可少;下一步策略或对趋势的预测能为你的报告加分。
相关信息
- Airbnb 是如何做数据分析的?
36氪2021年6月3日讯,Airbnb是一家数据驱动的公司,而Minerva是Airbnb的度量平台,帮助Airbnb发现了大量的商机。本文介绍了Minerva的创建背景,它的核心功能,及它对Airbnb的影响。本文是介绍Airbnb数据化工作系列文章的一部分,在接下来的文章中,作者还将深入探讨Minerva背后的技术,并分享他们一路上学到的经验教训。本文译自Medium,发布者为Robert Chang,原标题为" How Airbnb Achieved Metric Consistency at Scale ",希望对您有所启发。
- 白宫版“潜伏”:数据分析锁定副总统
36氪2018年9月15日讯,中期选举前,特朗普政府上演了一场“潜伏”版“水门事件”,而由于一位程序员及其在GitHub上发布的行文风格相关性分析,这位匿名告密者的身份被迅速锁定在副总统身上。这次的结果也似乎会与当年的尼克松大有不同。先来看看事情的经过。9月5日,《纽约时报》发表了一封匿名来信《我是特朗普政府中的一名抵抗者》,作者自称特朗普总统身边的高管,对特朗普的执政大肆批评并揭露了不少白宫内幕,称政府内部存在针对特朗普的“抵抗力量”。来信中他表示,为了美国的利益,自己一直“潜伏”在总统身边,让总统的很多错误决定无法执行。
- 如何用投行思维做宏观数据分析
36氪2018年5月27日讯,日常生活中当我们遇到一个新鲜的事物时,为了满足自己的好奇心我们总是想追本溯源的快速去全方位的了解它,因此我们需要用一个合理的模型来从不同的角度进行庖丁解牛,帮助我们快速认知新鲜的事物。具体来来说一般我们会从事物的主要特征和具体操作方法两个层面来进行解构。
拓展阅读
数据分析,如何推动业务?_详细解读_最新资讯_热点事件_36氪 (36kr.com)















