走过路过不要错过
点击蓝字关注我们
数据异常分析作为数据分析日常工作中“再正常不过”的常规工作内容,经常出现在需求方的沟通消息中,"Hello,某某数据很异常啊,能查下原因么?”
虽然近乎一半的“数据异常”最后检查下来,都是口径不一致等的理解问题,但即便砍掉这部分需求,剩下的需求工作量也是不少的。
本着“重复性需求”要想办法自动化解决或者沉淀出方法论(固定套路)让“小弟”去解决的“方针”,(咳咳,弟弟,我这不是害你呀,我这是爱你呀),我寻思着写写异动分析的方法论。
具体步骤如下,enjoy.
Step 0. 明确需求是不是真的是异动分析需求
这一步准确来讲,其实不是异动分析的步骤,而是承接需求的工作习惯;所以本步骤记为 Step 0 吧。
像上边说的那样,在真正的工作中,异动分析类的需求有不少都是理解偏差的伪需求,所以在接到需求时,不要着急马上就去拆解思路查问题;而是应当询问清楚需求方,Ta的数据异常结论是怎么得出来的,看了哪些数据。
然后自己按照需求方发现问题的过程,检查一遍数据,排查是否是如下原因引起的伪需求:
(1) 数据口径不一致等理解差异;
(2) 数据源更新延迟等数仓侧原因;
(3) 数据未上报/未采集等开发侧原因;
Step 1.定位呈现问题的最小单元
先解释下什么叫最小单元。最小单元就是对有这样问题表现的群体(即集合)进行不同维度(特征)的划分,直到找到某个集合,该集合中的群体都有这样的问题表现。
举个例子,假设我们发现,某电商交易平台月活客户数持续下降。
在问题提出时,我们得到的群体是“平台特定周期内所有活跃客户”,但是具体去看的时候,发生活跃度降低的用户群可能仅仅是某些渠道来的新客,也可能是具有某些群标签的老客,也可能是某些地区的用户(无新老客的差异),而我们要做的,就是对“平台特定周期内的活跃客户”进行一级*二级*三级等粒度维度的划分,具体去看呈现出异常表现的是具有哪些特征的人群。
图1. 拆分所有维度/特征
在这一步,用到的仅仅是人群维度的结构化拆解,注意维度列举时应遵循MECE原则,即:相互独立,完全穷尽。
Step 2. 基于最小单元,梳理相关因素,进行猜想验证
假设在第一步,我们定位到问题呈现现的最小单元是:某些投放渠道来的新客、某些城市的新客和某些城市的老客;
图2. 验证相关维度/特征
基于第一步的“最小单元”,梳理出每个单元涉及的相关方和相关因素。
其中相关因素就涉及需求方的工作了,所以记得平时多和需求方沟通学习,了解合作方的工作内容。数据分析师能力模型中,所谓的“懂业务”,一部分就是可以通过这种多沟通的方式得到提升,特别是当你遇到一个很专业很能打的合作方。
图3. 相关因素穷举
针对梳理出来的因素,我们可以提出猜想并进行验证(以排除无关因素):
1、【渠道】是不是渠道本身质量有问题?
2、【渠道】是不是投放渠道配置的素材有问题,以致吸引的客群质量不佳?
3、【渠道】是不是投放选的人群标签不对?
4、【地区】是不是有竞对在分走客户?
5、【地区】是不是区域的运营策略做了调整且调整后效果没有之前好?
6、【地区】是不是区域最近有什么大事件,影响用户消费?
......
列出各种猜想后,通过搜集相关资料和数据,来排除肯定错误的猜想,保留有证据支持的猜想。
图4. 验证有效因素
Step 3. 测算每个因素对结果的“贡献度”
在第二步的基础上,排除掉确定无关的因素,且有证据表明剩余因素相关,若相关因素唯一,则原因定位到了,反馈给合作方,后续持续跟进问题解决即可;
若相关因素不唯一,则需要通过对比分析等方法,测算出各个因素对结果的影响程度,和需求方一起讨论解决方案以及各个子方案的优先级。
番外.碰到实在分析不出原因的数据异常怎么办?
上述的方法一定程度上可以解决大多数异动分析问题,但是还是会遇见一些无法通过数据分析定位到异常原因的数据异常,这个时候就得上用户调研了。
高手在民间,用户的行为,只有你想不到,没有他们做不到的。实在分析不出来,就去回访用户爸爸吧。
热门文章
【您的在看,我的莫大鼓励】