一、数据分析三大层次
(1)观测:报表、图表等,形成对数据的认识和可视化。
(2)实验:提出猜想和假设-设计实验-验证猜想和假设。发现规律、找出数据异常的原因。
(3)应用:数据推动业务、产品的迭代;数据推动算法。
二、数据观测
2.1 观察:数据的采集、储存和展示。
2.1.1 采集数据的方法:解析系统日志、埋点、传感器、爬虫、API等。
(1)爬虫:解析其他网站的系统数据,获取数据。
(2)埋点:在用户访问或使用中预先设定部署的数据采集方式,一般会设置在页面或按钮。
(3)API:Application Programming Interface,应用程序接口,预先定义的,向开发人员提供的APP数据获取或访问的接口,无需源代码和了解内部工作机制。
2.1.2 储存数据:常用的数据库包括hive、MySQL、SQLServer等。
2.1.3 展示数据:数据可视化,Tbaleau等。
2.2 测量:发现异常(异常的标准),找到数据的因果关系。
2.2.1 发现异常:异常的标准;对异常进行分析。
2.2.2 找到关系:建立模型
三、数据实验
3.1 提出假设:区别假设和事实,没有被数据验证的’事实‘都只是假设。提出好的假设需要对业务有较高的了解。
3.2 设计实验验证假设:A/B测试,将研究对象随机分为两组或多组,对组间引流不同的产品或业务方法,观察业务指标的变化。
3.3 优化
四、数据应用
4.1 两大方向:偏业务和偏算法
(1)偏业务的数据分析:基于数据反馈不断迭代产品和业务反馈。
(2)偏算法的数据分析:基于数据训练模型,提高算法的性能。
4.2 偏业务的数据分析如何拆解目标:
4.2.1 拆解的基本原则:Mece原则,Mutually Exclusiv Collectively Exhaustive,中文意思是“相互独立,完全穷尽”。即保证拆解的独立性和完整性。
4.2.2 拆解方法:
(1)二分法:最基础,如国家(国内/国外)、总额/收入/支出等。
(2)象限拆分法:如将事情拆分为紧急/不紧急、必要/不必要,产生两个维度四个象限。
(3)流程拆分法:将整个过程拆分为不同的流程,如对购买行为进行拆分包括挑选、加入购物车、付款、售后等。
(4)杜邦分析法:ROE(权益回报率)=销售净利率*资产周转率*权益乘数
ROE为权益回报率,即净利润/所有者权益;销售净利润率=净利润/销售额,即每次销售的纯 利润;资产周转率=销售额/总资产,衡量投入产出比,权益乘数=总资产/所有者权益,衡量负债情况。
(5)AARRR分析法:客户生命周期模型,解释了实现用户增长的5个指标,分别是:Acquisition(获取)、Activation(激活)、Retention(留存)、Revenue(收入)、Referral(自传播),因其掠夺式的增长方式也被称为海盗模型,可以帮助我们更好地理解获客和维护客户的原理。
获取:哪个渠道客户多(总人数)、哪个渠道质量高(转化比)、哪个渠道便宜(CAC,获取成本)
激活:注册量、下载量、会话时长、引导页展示完成数、至少使用一次主要功能的用户数等。
留存:留存率、二次登陆率等
收入:付费率、平均消费额等
自传播:分享率、跳转率等
(6)PEST模型:宏观环境分析,政治(Political)、经济(Economic)、社会(Social)和技术(Technological)。政治:国际关系、方针政策、政治干预等;经济:经济政策、人均收入、GDP、经济发展水平等;社会:教育水平,宗教信仰、文化背景等;技术:技术发展水平。
(7)RFM模型:客户关系管理模型,衡量客户价值和客户创利能力。最近一次消费时间、消费频率和消费金额。
(8)SWOT模型:基于内部和外部竞争环境和竞争条件下的态势分析,S (strengths)是优势、W (weaknesses)是劣势、O (opportunities)是机会、T (threats)是威胁。SW为内部条件;OT为外部条件。
(9)5W1H:从原因(何因Why)、对象(何事What)、地点(何地Where)、时间(何时When)、人员(何人Who)、方法(何法How)等六个方面提出问题进行思考。