数据分析的全貌
数据分析由观测、实验和应用三个部分组成。
- 观测:观察(采集数据、储存数据、展示数据)和测量(设定标准、发现异常、研究关系)。
- 实验:拆解问题、提出假设、设计实验、收集数据、分析数据、验证假设。
- 应用:制定策略、实施策略、反馈迭代、训练算法、优化算法、使用算法。
观测
采集数据的方法:
1.解析系统日志——比如观看视频所产生的开始和结束时间,通过解析日志得到持续时长数据。
2.埋点获取新数据——基于系统日志新增数据,埋点是数据分析师获取新数据的最主要的方式,也是最可控、最可靠的方式。
3.通过传感器采集
4.爬虫——解析网站获取数据,一般来说是不合规的。
5.API——直接获取应用程序数据。
储存数据:
各种类型的数据库,比如hive、MySQL、Postgre SQL、SQL Server、Presto、Impala。
连接数据库取数。
展示数据:
可视化高效传达信息,一般使用报表、图表、仪表盘。
分析数据的目的:1.及时发现异常。2.找到数据之间的因果关系。
研究关系:
可视化查看相关性、建模推导相关性。
实验
提出假设,然后验证假设。例如外卖软件观测到差评率飙升,假设由恶劣天气引起,通过分析天气数据验证假设。(所有未经事实数据验证的想法都是假设)
设计A/B测试获取数据。
如何在业务只有少量数据时设计实验数据?
如何在无法同时测试两个版本时比较数据?
(还未找到答案)
应用
如何应用数据创造价值?
一、偏业务:基于数据反馈不断迭代产品和业务策略。
寻找业务目标,拆解业务目标,拆解要符合MECE法则,具体方法有流程拆解法、二分法、象限拆解法、杜邦分析法、AARRR、PEST、RFM、SWOT、5W1H。
将数据应用于业务:
二、偏算法:基于数据训练算法,让机器自动化地完成工作。
将数据应用于算法:为算法设定明确的业务目标——>为算法提供高质量的数据——>判断算法是否真的创造了实际价值——>帮助业务更好地使用算法。