数据分析入门实战
最近上了一个关于数据分析思维的网课,内容比较偏业务上的实际应用,关注点更多在于数据思维。以下是我在学习过程中的笔记整理。
文章目录
第一章数据分析与数据分析师
数据分析思维是什么
数据是客观的,解读数据是主观的。
使用数据要依靠个人的经验,对于行业和业务的理解,对数据分析思维的掌握
**辛普森悖论:**在分组中比较都占优势的一方,在总评中反而是失势的一方。(结构的不同导致数据会发生倾斜)
统计学定律:
大数定律:当随机事件发生的次数足够多时,发生的频率才会接近预期
做事不要盲目跟风
小数陷阱:要保持一颗平常心。(很多事情是因为做得不够大,时间周期不够长)
慎始尽终
回归:
两个变量有回归的关系不一定有因果的关系
均值回归:
实际发生的数据比我们理论上的预测更趋近平均值
**启示:**所有的数据工具,都要和业务场景结合起来
闭环:熟悉业务、发现业务上的问题、提取数据、数据分析
数据思维才是数据分析师拉开差距的关键所在。
第二章 业务指标与指标体系
2.1什么是指标,如何找到正确的指标
1.什么是指标,什么是维度
指标:是针对某一事物事物或行为进行量化描述的数值
eg.国名生产总值GDP\销售额GMV \访客量UV
维度:指标的特征
电商常用维度:时间、地区、平台、类目……
2.好的指标
准确性:数据质量
可比较性:同环比、不同数据比较
业务指导性:指标具有指导意义
简单易懂:能够快速的让别人理解
3.快的指标
虚荣指标:没有任实用意义
产品在应用商店终的曝光量就是虚荣指标,注册量才是有效的指标
后验性指标:往往只能反映已经发生的事情
如活动运营的ROI(投资回报率):只能用作复盘,不能在活动期间用作优化;用户流失率
复杂性指标:它将数据分析陷于指标陷阱中
2.2北极星指标及其重要性
1.什么是北极星指标?
北极星指标:唯一关键指标,
本质上只是一个指标,但其意义远超其他指标
2.北极星指标有什么用?
使命和远景难以测量,理解各异;北极星指标起到量化作用
①企业的经营情况变得有迹可循
②管理人员和执行人员能够把更多的注意力放在改善北极星指标的相应动作上
③心往一处去,力往一处使
3.如何选择北极星指标
一个好的北极星指标能够实现商业目标和用户价值之间的平衡,同时兼顾企业长期和短期发展
4.筛选北极星指标的6个标准
能够反应用户从产品中获得的核心价值
能否为产品达到长期商业目标奠定基础
能否反应用户的活跃程度
指标变好,是否能够预示公司在往好的方向发展
是否简单、直观、容易获得、可拆解
是否是先导指标,而非滞后指标
5.北极星指标的注意事项
北极星指标并非绝对唯一,且很多指标都具有相关性
北极星指标可能随着公司的不同发展阶段而变化
可以考虑加入反向指标作为“制衡指标”
2.3指标体系是什么?一二三级指标是什么?
1.为什么要建立指标体系
在实际过程中,往往一个指标没办法解决复杂的业务问题,这就需要使用多个指标从不同维度来评估业务,也就是使用指标体系。
2.什么是指标体系
指标体系就是从不同的维度梳理业务,把指标有系统的组织起来。指标体系是相互之间有逻辑联系的指标及维度构成的整体
3.指标体系有什么用
监控业务情况
通过拆解指标寻找当前业务问题
评估业务可改进的地方,找出下一步工作的方向
4.指标分级体系
指标分级体系能够帮助公司搭建一套完整的数据指标体系,从而及时发现业绩的升高或降低,以及产生的原因。
指标分级可以帮助我们更高效去定位问题,去验证我们的方法论,无需每次都要思考去看那些指标
①一级指标:核心指标,宏观指标,必须是全公司认可,衡量业绩的核心指标
可以直接指引公司的业务达成情况,且要易于沟通传达,比如公司销售额或者社交产品的活跃度。
A.一级指标用于衡量公司整体目标达成情况,对公司所有层级的员工都有指导意义
B.一级指标数量控制在5-8个,与商业结果和公司战略目标紧密结合
C.与行业紧密结合,指标定义最好按照行业标准制定,并有可参考的类似行业指标。
D.不应该仅仅是财务指标,但同时也能够衡量公司的商业结果
E.从公司与用户两个角度出发定义一级指标
②二级指标,是一级指标的路径指标。一级指标发生变化时,可以通过查二级指标,能够快速定位问题的原因所在。
A.是针对一级指标的路径分析拆解,很高效的定位一级指标中波动的原因
B.应通过历史经验选择二级指标,在拆解一级指标中定位的原因,作为监控的对象
C.二级指标是流程中的指标。
③三级指标:对二级指标的路径分析,通过三级指标,可以高效定位二级指标波动的原因,这一步也会给予历史经验拆解
A.是针对二级指标的路径分析拆解,很高效的定位二级指标中波动的原因
B.应通过历史经验选择三级指标,在拆解二级指标中定位的原因,作为监控的对象
C.第三级指标应该有直接指引一线运营、决策的作用;一线市场、产品同学在看到三级指标的结果后,往往应该有直接的行为。
D.三级指标通常以子流程或个体的方式定义
举例:
一级指标:GMV(商品交易总额)、订单数量
二级指标:货品的单价、用户活跃
三级指标:IOS客户端转化率
很多北极星指标是一级指标,但业务发展不同阶段的北极星指标会发生变化,所以把北极星指标独立在指标体系一二三层级之外。
5.如何建立指标体系
A.明确OKR,找到一级指标
一级指标可能有多个
B.了解业务运营情况,找到二级指标
C.梳理业务流程,找到三级指标
D.通过报表监控指标,不断更新指标体系
6.指标体系有哪些注意事项
A.没有一级指标,抓不到重点
首先要知道一级指标是什么
B.指标之间没有逻辑关系
C.拆解的指标没有业务意义
D.一个人就完成了指标体系和报表,也不和业务沟通
业务部门:市场、运营、产品部门
数据部门:这里指数据分析师所在的部门
开发部门:技术工程师所在的部门
建立指标体系需要各部门沟通,对公司体系要了解
2.4指标涨跌如何快速定位?归因分析
1.如何确定数据异常
数学上:2倍标准差
实战中:同比(周期性里面,如本周一和上周一)、环比(如今天和作图)、对比(如自己的数据和竞争对手)
2.如何确定数据是否准确
数据收集是否全面
数据来源是否有变化
数据任务脚本是否完成
前后代码是否更改
埋点是否变更
统计口径是否发生变化
发版是否带来了数据影响
3.判断动作是否带来影响
产品是否改版
算法是否调整
行业、竞争对手是否有活动
运营是否有动作
拉新渠道是否有变化
4.对异常指标进行定位
①将综合指标拆解成单一指标
②将单一指标拆解分析
不同维度拆分:用户属性、生命周期、进入方式、系统、版本……
漏斗分析:转化类指标,如:订单转化率
③对异常指标进行假设检验
2.5经典的业务场景需要的指标——上
经典的业务场景就是经典的商业模式
商业模式1:电子商务
如淘宝、京东、拼多多
(这里商业模式说的不够清楚,重点看他的指标吧)
指标:
①转化率:用户在发生购买行为的比例。它是评价电商健康程度的最基本指标之一。
转化率=(产生购买行为的客户人数 / 所有到达店铺的访客人数)× 100%
- 可以按人群、商品、用户来源等多重标准分类讨论转化率,以观察哪些因素可以增加用户的购买欲
- 推动因素可以是 用户忠诚度或新用户的获取,后两者皆有
- 转化率重要但不是电商全部,转化率取决于电商类型以及用户购买习惯
②重复购买率:90天内的重复购买率,这是判断电商所属类型的绝好指标。(不一定是90天)
- 重复购买率高,花心思在获取新用户
- 重复购买率低,花心思在老用户复购上
③订单金额:用户加入购物车商品的价值总和
- 电商成功的关键在于能否增加卖家的订单金额
- 把用户获取成本看作相对固定,订单量越大,金额越高,利润
收入=转化率X重复购买率X订单金额
④弃买率:1-转化率
跟踪每一步的转换
⑤用户获取成本:花多少钱获取了一个新用户
⑥用户终身贡献价值LTV:获取的用户能够为公司带来的总价值。对全部商业模式都是非常重要的一个指标。
LTV是健康程度的唯一标准
- 提升用户留存、留存越高、复购越多、LTV越高
- 提升用户体验,体验越好、产品越好用、运营越好,用户购买金额越多,LTV越高
⑦关键词和搜索词:通过不同搜索方式为网站带来收益的搜索词和关键词
站内用户搜索词:需要弄清楚大家找什么;是否指向某一特定的商品分类,是否需要调整一下该类别的位置。
⑧推荐接受率:通过推荐引擎,可以给用户推荐还可能感兴趣的其他商品
推荐方法:
- 基于卖家购买历史
- 通过地理位置
- 通过访问来源
- 通过点击行为
从推荐的商品中获得了多少的额外营收?
⑨传播裂变
⑩PUSH点击率
衡量线上产品和运营非常重要的指标:弃买率、用户获取成本、用户终身贡献价值、关键词和搜索词、推荐接受率、传播裂变、PUSH点击率
衡量线下的重要指标:
①运送时间:商品处于运输过程中的事达
次日达、一小时达
与商家处理物流方式密切相关;大多电商公司仅仅通过优化订单处理和送货流程,进而显著高整体的运营效率
②库存可供率:商品缺货时,销售量会随之下降,提升库存管理水平可对业务产生深远影响
- 可将断货的商品放到产品列表或商品种类列表中更下方的位置,从而让用户很难注意到这些商品的存在;
- 还可以把商品从搜索结果中隐藏,确保其在搜索结果中的排名足够低。
- 要根据销量来分配库存。如果一件商品卖得不好,却又占用了很多库存,则说明库存和销售之间有些失衡。
初期:转化率
中期:用户终身贡献价值LTV
成熟期:库存可供率
商业模式2:SaaS软件即服务
生命周期:
获取用户、用户尝试使用产品并付费、用户邀请朋友使用产品、用户升级产品至高版本、用户遇到技术问题并不再使用
①访问量
②日活跃用户数
③**转化率:**活跃用户转成付费用户,这其中又有多少人升级到了更贵的服务级别。
④**平均每位用户营收:单位时间内平均每位用户带来的营收。
⑤用户获取成本:**获取一位付费用户的所需成本。
⑥**传播裂变:同电子商务。平均每位用户可以邀请多少新用户。
⑦追加销售:**是什么促使用户支付更多费用,以及这种情况的发生频率。
⑧系统正常运行时间和可靠性:公司会面临多少用户投诉、问题升级或服务争端问题。
⑨流失率:流失率是指在一段时间内流失掉的用户比例。单位时间内流失的用户和付费用户人数。
免费用户“流失”:指用户注销账号或再也没有回来使用过
付费用户"流失”:指用户注销了账号并停止支付费用, 或是降级到免费版
流失用户:一般指降级或者未登录90天的用户
用户召回时机:产品功能显著升级或有可触达内容的时候(要有真实的内容)
⑩用户终身贡献价值LTV
商业模式3:免费移动应用
如游戏
下载量:应用的下载数量
用户获取成本:获取一-位(付费)用户的所需成本
注册转化率:有多少下载用户真正开启了该项应用,并完成了注册。
**跃用户/玩家比例:**每天/月保持活跃在线的用户比例,即日活跃用户数和月活跃用户数。
付费用户率
- 知道某种广告吸弓进来的用户更有可能在游戏内购买物品,则应多打些类似广告。
- 跟踪平均每位用户营收有助于了解付费用户的支付金额。
- 可将付费用户和免费用户区别对待,单独跟踪付费用户的行为、流失率以及营收。
**首次付费时间:**用户激活后需要多久才会开始付费
**人均收入:**应用总营收除以活跃人数或玩家人数
**点评率:**在应用商店为应用评分或评论的用户比例
**传播裂变:**平均每位用户可以邀请多少新用户
**流失率:**注意跟踪一日、一周、一月内的流失率,因为用户会以不同原因在不同时间段流失掉。
- 第一天后便流失掉的用户:游戏本身对他们没有吸引力
- 一周后流失掉的用户:嫌弃游戏的新手教程太过糟糕,或是觉得你的游戏“不够耐玩”
- 一个月后流失掉的用户:由于游戏的更新规则处理得不够好
用户终身贡献价值
2.6经典的业务场景需要的指标——下
商业模式4:媒体网站
收入:广告
- A通过出售广 告位或达成赞助协议来赚钱
- B与点击量或后续销售的提成有关
- C以每次用户来访时展示广告赚钱
广告的点击率
广告的展示率
用户在线时长
页面浏览数量
用户人数
广告库存:广告库存是可供变现的广告展现次数,每次页面浏览都认为是一次展示广告。
过多广告会降低网页的可读性以及用户忠诚度。
如果网站内容只是为了突出广告关键词,以盈利更多
则会使文章感觉不自然,读起来像软文。
广告价格
商业模式5:用户生成内容UGC
如知乎 抖音 B站
UGC网站的收入往往来自广告或融资。
网站的核心功能之一便是获取一 次性用户 ,将其转换成注册用户,并最终使其为网站内容作贡献。
**活跃用户数:**扩展-用户回访频率,以及每次来访的停留时间。
**用户参与度:**扩展-最后访问时间,即用户上一次访问网站的时间。
**内容生成:**以某种方式与内容进行互动的用户比例,包括生成内容以及顶/踩行为等。
参与度漏斗的变化:网站是否有效地增加了用户参与度。
PUSH和通知点击率:看到推送通知或其他提醒时,给予回应的用户比例。
传播裂变
流失率
用户终身贡献价值
商业模式6:双边市场
如滴滴、美团
买卖双方的人数增长和连接:买卖双方人数的增长速率(通过回访人数测定)。
库存增长:卖家新增库存(如新上架商品等)的速率,以及商品页面的完整性。
搜索有效性:买家的搜索内容,以及该内容是否与所建库存相匹配。
**转化漏斗:**商品售出的转化率,以及各种有助于商品出售的细分要素。
评分以及欺诈现象:买卖双方的相互评分、欺诈现象以及评论语气。
**定价指标:**如在市场中实行竞价机制,则需关注卖家的定价是否过高或过低。
2.6 业务指标与指标体系的应用案例
建立指标体系,并进行问题分析的步骤方法:
- 了解产品现状
- 分析产品价值
- 建立指标体系
- 指标体系应用(如归因分析)
第三章 数据的获取与存储
3.1数据从哪里来?聊聊数据采集
一手数据:
来源
公司内部的大数据平台、数据仓库以及相关系统
部分数据来自用户访谈和调研问卷
内部沉淀的历史文档
特点
数据可控
注意:
数据采集要从最核心的业务开始
数据的采集和计算要从最明细的数据开始
进行数据分析时,数据的质量要求要大于数据量的要求
二手数据:
**来源:**行业内的数据,非自己公司内部产生
特点:
看到行业内或整体行业趋势
帮助分析整体数据,帮助设定我们自己的目标值
常用二手数据来源
注意:
二手数据的可信度:
政府部门>行业协会>企业财报 >投资机构> 研究报告> 新闻稿
3.2数据仓库是做什么的
本质就是整合多个数据源的数据,进行细粒度的多维分析,为业务提供数据服务和应用,帮助高层管理者做出商业战略决策。
数据仓库的特点:数据仓库是面向主题的、集成的、不可更新的、随时间变化的。
数据仓库的构架
源数据:
业务数据:收入、销售量、库存等
埋点日志:点击、浏览等用户行为数据
系统日志:系统流畅度、稳定性等
手工录入:用户调研等
外部获取:外部网站爬取的数据信息等
管理数据:财务系统、HR系统等
**埋点:**提前埋伏好,收集信息
主要目的:收集用户行为信息
采用手段:打日志的方法,这个日志通过解析编程可以解读和使用的数据,并存储在数据仓库的数据表中
数据仓库分层:
ODS 数据运营层
-
是最接近源数据的一层,经过ETL把数据装入本层
-
按照源头业务系统的方式分类
-
后续可能要追踪元数据的问题,这层不建议做过多的数据清洗工作,尽量完整的接入原始数据即可
-
ETL贯穿数据仓库
-
ETL:抽取Extra,转化Transfer,装载Load
DW层
DWD层:一般保持和ODS层一样的数据粒度;提供一定的数据质量保证(如去掉空值、重复值、脏数据)
DWM层:对数据进行轻度的聚合操作,生成一系列的中间表;提升公共指标的复用性,减少重复加工
DWS层:数据集市或宽表;按照业务划分,生成字段比较多的宽表,用于提供后续业务查询、分析等;目标是在指标体系的指导下,完成基础指标的完备建设。
APP数据应用层
-
提供给数据产品或数据分析使用的数据
-
常常会存放在MySOL 等系统中供线上使用,也可能会存在Hive等中供数据分析和数据挖掘使用。
DIM层
- 高基数维度数据:一般是用户资料表、商品资料表类似的字典表
- 低基数维度数据:一般是配置表或日期 维表
数据应用:
- 报表展示:BI平台的;最简单直观的数据
- 即席查询:写SQL灵活的获取数据,包括细节数据、聚合数据和分析数据
- 数据分析:根基数据仓库中的数据进行趋势分析、比较分析、相关分析等
- 数据挖掘:根据数仓中的数据,用高级算法构建模型,帮助业务提升关键指标
3.3数据治理在做什么
1.为什么要做数据治理?
因为随着大数据时代的到来,越来越多的企业看到了数据资产的价值,将数据视为企业的重要资产
如果没有数据治理:
- 数据不统一
- 难以提升的数据质量
- 难以完成模型梳理
- 难以保障数据安全
- 导致数据建设难以发挥其商业价值
2.什么是数据治理?
官方定义:对组织的大数据管理并利用其进行评估、指导和监督的体系架构
个人经验:严格把控数据规范,实现数据由乱到治、建章立制的过程
3.数据治理能帮公司解决什么问题
- 公司全面数据化,提升运营效率, 保持增长
- 数据规范化带来的存储、安全、质量等系列数据管理问题
- 国家数据政策和监管,对数据分级分类、隐私保护等提出更高管理要求
4.数据治理如何工作?
- 对存量数据:“由乱到治”,实现数据统一性的治理阶段
- 对增量数据:“建章立制”,确保数据一致性的运营阶段
5.数据治理要做哪些工作?
成本治理
- 存储成本:根据表的生命周期类型进行分别的管理
- 计算成本:计算资源费用根据各部门实际消耗进行费用分摊
规范治理
- 数仓分层:严格按ods\dm\app归仓,建立数仓命名规范,并严格执行
- 数据分类:按照资产目录,按“业务板块-数据域-数据子域”进行上级分类定义
- 资产分级:给资产划分等级,按等级优先保障
- 一般性质、局部性质、全局性质、灾难性质
质量治理
- 元数据质量:统一数据类型、格式、量级、计算口径,最重要的是埋点治理
- 数仓数据质量:格式、口径要统一,上下游数据变更通知机制
- 监控机制:制定的规范要有监控机制,确保新增数据,可以确定按照规范执行
安全治理
- 数据安全等级分级机制:L1可公开信息,L2是可共享信息,L3是保密信息,L4是机密信息
- 实现字段审批流程:一个表有10个字段,因为安全等原因,只能申请其中5个字段来访问
- 敏感数据脱敏:用户的姓名、手机号等在内的敏感信息,要加密存储在数据库里
- SQL运行预警:敏感的SQL需要进行拦截、审计等
- 实行双owner制度:业务owner主导使用场景和审批,技术owner负责生产保障
6.数据治理与数据分析的关系
先做好数据治理,再做数据分析
数据分析师也常常参与到数据治理的项目中
第四章:常用的6大数据分析法
4.1对比分析
1.为什么要对比分析?
- 直观反映变化
- 精准展示差异
2.对比什么指标?
先总后分
- 核心指标(一级)。如GMV
- 对比细分指标。如GMV=访客流量*支付转化率 * 客单价
- 对比竞品、行业指标。(分清楚是自身原因还是行业原因)
3.明确和谁做对比
- 与目标对比
- 对历史对比
- 环比:现在的统计周期与上一个统计周期相比
- 同比:与以往统一周期相比,多指与上一年同一时间相比
- 与竞争对手比对【找消费者群体和产品相似的对手或行业标杆】
- 对行业进行对比
- 处于行业的哪一阶段?
- 行业瓶颈?
- 哪里发力?
4.采用哪些统计值进行对比?
- 集中程度
- 平均数(不是正态分布的时候,平均数就没啥意义)
- 中位数、众数
- 表示相对位置
- 分位数、中位数
- 极端情况
- 最大值、最小值(尤其需要关注,可能代表着业务的问题)
- 比值的统计
- 如,人均贡献=销售额/团队人数。体现效率
- 点击率、加购率、收藏率
- 离散程度
- 方差、标准差
4.2漏斗分析
1.漏斗分析
漏斗分析是基于业务流程的一种分析模型,能够科学反应用户从起点到重点各阶段的转化情况,进而定位用户流失的环节和原因
2.分析模型
- 【AARRR用户漏斗】对用户完整的生命周期进行漏斗分析
- 电商:进入首页、查看商详页、加入购物车、支付成功
- 【AIDMA漏斗】消费者行为学领域
- 注意、兴趣、欲望、记忆、行动、分享
- 效果广告(有结果衡量)、品牌广告(影响用户心智)
- 【产品功能漏斗】
3.分析步骤:
- 1.快速定位问题环节
- 2.对维度切分问题原因
- 不同渠道、不同维度
- 3.监控漏斗转化趋势、迭代优化
4.3细分分析
1.为什么要做细分拆解
拆解:找到问题在哪、原因、优化地方
2.细分举例
GMV
销售
DAU 日活跃用户数量
4.4用户画像
1.用户画像是什么,包括哪些
根据人的信息数据和行为数据,对用户标签分组。
-
静态标签(属性标签):
- 人口属性(性别、年龄、身材);
- 社会属性(地域、职业、婚姻);
- 商业属性(消费等级、消费周期、消费占比)
-
行为标签
- 行为数据(启动、访问次数;访问时常;浏览路径)
- 偏好数据(使用APP\Web;访问时常;浏览/收藏内容)
- 交易数据(贡献率、客单价、回头率)
用户画像标签体系
2.如何收集用户画像
用户属性的信息,有一些是可以去预测的
用户行为的信息,可以直接收集
3.用户画像用在那些定法
- 【洞察分析】进行主体分析,并且对产品上市前后的各阶段进行用户洞察
- LTV分析、客户旅程、换机分析
- 【广告投放】画像平台提供人群圈选等功能
- 【自动化营销】支持基于场景的营销自动化
- 【精准营销】通过用户行为轨迹记录个体画像,支持精准运营
4.5RFM模型
1.什么是RFM模型
最早产生于电商领域,是根据客户的交易频次、交易的金额等信息对客户进行细分的一种分析方法
2.如何进行RFM建模
数据准备
计算
阈值划分
用户分层
3.RFM模型的优缺点
优点
- 数据的可获得性
- 数据的可解释性
缺点
- 分析的滞后性
- 假设用户的前后行为无差异
4.6波士顿矩阵
利用四象限分析法,对产品从市场占有率和销售增长率两个维度进行划分:
-
高市场占有率+高销售增长率:明星类产品:产品处于良好的发展前景,企业具备相应的适应能力
-
高市场占有率+低销售增长率:金牛类产品:投入尽可能少的成本,支持其他业务发展
-
低市场占有率+高销售增长率:问题类产品:可能成为明星产品,成为摇钱树,也可能成为瘦狗产品淘汰
-
低市场占有率+低销售增长率:瘦狗类产品:产品生命周期的下降阶段,应该砍掉非增值的产品和功能
4.7其他数据分析方法
人货场理论、PEST理论、SWOT理论、4P理论