数据分析流程大体分为问题、思路与假设构建、数据搜集与处理、数据分析、数据展示
- 问题、思路与假设构建
这一步在许多的数据分析报告中被简化甚至忽略,其表现为注重数据层面的探索性分析(描述统计与交叉分析等),而忽略分析问题、思路与假设的建构,但是问题和思路才是一份数据研究报告的核心。
- 问题
所谓分析问题就是你想要研究什么?换句话说就是你想要知道什么?有目的的分析才是优秀的分析,有分析问题的报告才是优秀的报告。分析问题实际上是一体两面的,一个问题会有业务问题(具体问题)和抽象问题两个形态,业务问题是表象,抽象问题是内在,下面就以抽象问题为主线,介绍具体与抽象二问题的关系
1.抽象问题之一:为什么(归因问题)
有关“为什么”的问题是数据分析场景中最为常见的问题。例如为什么XXX指标下降了?“为什么”的问题本质上是溯因,即找出影响XX指标的变量。原因分为两种,数据因和实际因,数据因即数据表象层面上某变量某取值带来的结果指标上的差异,这是数据分析中需要做的基本功,在现在各大互联网企业都拥有成熟的数据可视化系统之后,可以通过各维度、指标的拆解观察发现变化的数据起源,所以追寻数据因倒不是难事,但追寻数据因并非是归因分析的终点,作为一个合格的数据分析师是要提供合理的实际因。实际因即引发现实数据异动的现实催动力量,而找到这些力量才是难题。实际因可谓多种多样,需要结合具体的业务和具体的场景来谈,但是没有一些先前的框架与认知也不行。下面是找出实际因的框架:
a. 按照原因来源,实际因分为外因和内因。外因指的是来源于企业外部的因素,例如新冠疫情、国家政策的影响;内因指的是来源于企业内部的因素,例如促销、优惠活动的影响。一般来说,外因的影响未知的、具有风险的,而内因往往是有利的
b. 按照原因的种类,借用PEST理论,可以分为政治、经济、社会和技术因素
1. 政治类因素指的是国家政府政策亦或公司战略层面对企业带来的影响,这种影响有好,例如大力发展XX 的文件发布,也有坏,例如前两年对教培行业的巨大打击。政治类的影响往往是决定性的
2. 经济类因素是指市场、经济环境的变化对企业带来的影响。所谓市场环境的变化主要来源于供给和需求两方面,需求包括消费者和竞争对手的影响,供给包括供应商的影响
3. 社会类因素与企业的ESG(环境、社会、治理)方面紧密关联。例如企业产品成为热点话题、企业对灾区进行捐款会对企业产生正面影响,而企业的负面消息(欠薪、产品质量差)对公司的影响也是巨大的
4. 技术类因素是指产品本身的改动、以及产品策略的调整对企业的影响
c. 按照原因的可控性,实际因又分为可控因和不可控因。可控因容易用较低成本去施加解决策略,而不可控因很有可能是企业无法控制的
下面将对上述框架进行总结:
原因种类/来源 | 内因 | 外因 |
政治 | 公司战略的调整(可控) | 国家政策变动、贸易战打击(不可控) |
经济 | 其他部门资源竞争(可控) | 消费需求改变、供应链变动(不可控) |
社会 | 人才变动、公司氛围(半可控) | 环境、社会、公司治理(半可控) |
技术 | 产品及营销策略变动(可控) | 相关技术突破(几乎不可控) |