数据分析全貌:观测、实验、应用
1.观测:
采集数据、储存数据、展示数据、设定标准、发现异常、研究关系
1.1采集数据
例如:
方式一:解析系统日志
1.观看视频,产生日志,解析日志——>得到数据(eg:得到观看前后的时间--开始时间、结束时间)
2.采集数据:埋点获取新数据(自定义日志)(eg:日志记录新信息:IP,解析日志——>得到新数据,通过IP可以得知观看地址)
基于系统日志新增数据的过程,称之为埋点(最可控、最可靠的方式)
方式二:通过传感器采集数据
例如:天气数据的收集、心率血氧数据的收集
方式三:爬虫来采集数据
方式四:API(Application Programming Interface)应用程序接口:按照我们的规则为我们提供数据
例如:API平台文档,用API获取数据——>代码:提供地址、参数——>得数据
1.2储存数据
各自类型的数据库
eg:MySQL、SQLServer、hive、PostgreSQL、Presto
连接数据库取数即可
1.3展示数据
通过可视化高效的传达信息
1.4分析数据
分析数据的目的是什么?
1.及时发现异常 2.找到数据之间的因果关系
Benchmark 数据标准
1.5研究关系
可视化查看相关性,建模推到相关性
eg:胶水,发现一种低于胶水的黏度性液体——>发明了便利贴(通过数据分析发现了新价值、新商机)
2.实验:
拆解问题、提出假设、设计实验、收集数据、分析数据、验证假设
2.1提出假设、验证假设
eg:观测到差评率飙升—>假设由于恶劣天气引起—>通过天气数据验证假设
所有未经事实数据验证的想法都是假设
3.应用:
制定策略、实施策略、反馈迭代、训练算法、优化算法、使用算法
如何运用数据创造价值?
一、基于数据反馈不断迭代产品和业务策略
二、基于数据训练算法,让机器自动化地完成工作
问题拆解方法:
流程拆解法、二分法、象限拆解法、杜邦分析法等,拆解只需要符合MECE法则即可
MECE法则:要求将信息划分为互斥且完全穷尽的部分,以确保涵盖所有可能性并且没有重叠
----我采用6W2H分析法(which、why、what、where、when、who、how to do、how much)
3.1将数据应用于业务
3.2将数据应用于算法
为算法设定明确的业务目标——>为算法提供高质量的数据——>判断算法是否真的创造了实际价值——>帮助业务更好地使用算法
基于数据和算法的竞争无时无刻不在互联网行业上演