异常数据分析

数据异常分析

如何确定异常

数学上

一般以2倍标准差、3倍标准差作为判断标准

实战中

根据同比、环比、对比(例如竞品、相关指标(活跃用户与付费用户))
可以考虑《智能运维挑战赛》的思路

探索异常的原因

首先确定数据是否准确

  • 数据收集是否全面
  • 数据来源是否有更改变化
  • 数据任务ETL是否跑完
  • 统计口径是否发生变化

判断已知动作是否带来影响,计算影响量级

  • 产品是否改版(如:功能样式变化等)
  • 运营是否有行为(如:PUSH、热点、激励计划等)
  • 算法是否调整(如:分发策略等)
  • 渠道是否发生变化(如:新增投放渠道增减等)
  • 竞争对手是否有活动(如:电商天猫双11,京东618)

对异常指标拆解定位

  1. 第一步:将综合指标拆解成单一指标

  2. 第二步:将单一指标拆解分析

    1. 多维分析:用户属性、生命周期(新老、活跃)、进入方式(push、活动、搜索)、系统、版本
    2. 漏斗分析:转化类指标,如订单转化率
  3. 第三步:对异常指标,进行假设检验找出原因

    购买会员的销售总额 = 销售人数 * 平均单价

    销售人数 = 首次购买人数(老用户+其他渠道新用户)

    +再次购买人数(续费率(产品维度、顾客群体维度、缴费月数额度) * 上周期已购买人数)

量化角度

某个指标下降了,如何找到与之关联的最可能的原因

常见指标
  • 贡献度:
    D k = Δ A k ∣ Δ A ∣ D_{k} = \frac{\Delta A_{k}}{|\Delta A|} Dk=∣ΔAΔAk
    其中k代表A的一个细分维度,比如渠道(Android Channel)
  • TGI:
    T G I k = Δ A k / A k 0 Δ A / A 0 TGI_{k} = \frac{\Delta A_{k}/A_{k}^{0}}{\Delta A/A^{0}} TGIk=ΔA/A0ΔAk/Ak0
    其中 A k 0 A_{k}^{0} Ak0 T 0 T_{0} T0时刻的 A k A_{k} Ak
根因分析(Root Cause Analysis)算法

根因定位算法原理

  • 主题看板-指标树
    • 计算指标与指标之间的贡献:控制替代法
    • 维度影响指数采用下述mdrca法的surprise值(JS散度)计算。
  • 指标看板-根因定位&多维分析
    • TOP因子贡献度计算:

      • 原子指标(作品数、GMV、DAU等):采用超均贡献计算法
      • 均值指标(渗透率、CTR、人均付费等)采用综合贡献计算法
    • 多维分析维度影响指数同主题看板维度影响指数计算方法。

优化中算法:mdrca法

控制替代法
连环替代法

探讨什么是控制替代法之前,首先需要了解连环替代法。连环替代法属于财务分析领域中因素分析法的一种,其依据分析指标与其影响因素的关系,从数量上确定各因素对分析指标影响方向和影响程度。
连环替代法为其中广泛应用的方法论之一。

假设核心经营指标及计算公式为:M = a * b *c,
对比周期指标值为 M1 = a1 * b1 * c1,本期指标值为 M2 = a2 * b2 * c2;本期对比上期的偏移量为 M2 - M1
确定先后替换顺序为:a、b、c,找出最大的核心指标影响因子
先替换a,得到Ma = a2 * b1 * c1,那么因子a对核心指标的影响为 Ha = Ma - M1
再替换b,得到Mb = a2 * b2 * c1,那么因子b对核心指标的影响为 Hb = Mb - Ma
再替换c,得到Mc = a2 * b2 * c2,那么因子c对核心指标的影响为 Hc = Mc - Mb
比较影响因子a、b、c对核心指标的影响值Ha、Hb、Hc的大小,其中各因子的差异值之和等于核心指标差异值(Ha + Hb + Hc = M2 - M1),从而找到影响核心指标最大的因素。
进一步Ha / (M2 - M1)可以表示a指标带来的影响比例大小。跟预期相比,M2 - M1这么大差额由于a指标降低(提升)的影响,对实际总指标M造成了Ha大小的损失(提高)

适用场景:
适用于多指标关联归因中具有计算公式关系的指标间贡献值归因,并对各种计算公式同时适用。

优势&局限性:

优势:通过上面的拆解可以发现,该方法满足所有下级指标的波动之和等于核心指标的波动,使得波动可以用瀑布图完美呈现。

局限:

  • 贡献值的大小与替换顺序强相关,甚至会因为替换顺序的改变影响贡献值的排序结果;虽然理论上可以通过数量指标-质量指标-价值指标的顺序来尽量保证结果的可靠性,但对于大部分产品用户而言并不一定清楚了解内在逻辑并如此配置,会导致结论严谨性受损。
  • 无法保证下级指标的贡献度在[-100%,100%]的范围,业务解释性较差。
控制替代法

为解决连环替代法的问题,智策产品输出下级指标贡献值时实际使用的为针对业务场景优化过的“控制替代法”。还是以上述核心经营指标计算公式为例,控制替代法的执行过程为

控制其他指标不变,替换a指标,得到Ma = a2*b1*c1,那么因子a对核心指标的影响为 Ha = Ma - M1
控制其他指标不变,替换b指标,得到Mb = a1*b2*c1,那么因子b对核心指标的影响为 Hb = Mb - M1
控制其他指标不变,替换c指标,得到Mc = a1*b1*c2,那么因子c对核心指标的影响为 Hc = Mc - M1

a指标的贡献度可以计算为:Contri_a = Ha/|Ha|+|Hb|+|Hc|
b指标的贡献度可以计算为:Contri_b = Hb/|Ha|+|Hb|+|Hc|
c指标的贡献度可以计算为:Contri_c = Hc/|Ha|+|Hb|+|Hc|

可以发现,按照上述优化方式:

  • 替换顺序的影响被消除,无论先替换哪个指标,因子贡献值的组合唯一。
  • 每个因子的贡献值均落在[-100%,100%]的范围,业务解释性更强。

经过验证,在绝大部分情况下,控制替代法的贡献度排序结果与连环替代法按照建议的替换顺序得出的贡献度排序结果基本一致;因此,尽管控制替代法无法保证各指标影响之和为指标本身偏差(这在财务分析场景下更重要),控制替代法在异动分析定位的场景下有其特殊优势。

超均贡献计算法

超均贡献度的提出是为解决原子指标单看变化的绝对量级(偏移量、偏移量占比)和变化的相对快慢(波动率)导致的不准确问题:

  • 用变化的绝对量级进行根因定位:会导致量级较大的维度因子长期排在前列,可能无法识别非头部因子带来的影响。
  • 用变化的相对快慢进行根因定位:会导致量级较小但波动剧烈的因子排在前列,忽略了量级影响。

超均贡献度提供了一个综合变化量和波动率的量化依据,用于衡量维度因子对指标整体波动的贡献占比,较单独查看波动率和偏移量数值而言,综合两方面因素更为科学准确。

1.贡献度计算公式


详细解释如下:

当前按超均法判断超过指标大盘的因子:
(1)计算超均贡献值=(因子波动率-指标波动率)* 因子本期值
(2)因子贡献度 = 因子贡献值/维度下所有因子贡献值绝对值之和
即将维度下所有因子的贡献值,进行归一化,量化为100%以下的百分数,作为贡献度

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GHXbjYaN-1647997131939)(./pic/chaojungongxian.jpg)]

超均贡献值:I_i = (F_i - F_8) * (B_i), i = 2,3,..7
超均贡献度:J_i = I_i / SUM(ABS(I_i)), i from 2 to 7
2.超均贡献度的解释性

超均贡献度可以理解为“因子波动与指标值(均值)波动差异的相对大小”,超均贡献度越大,说明因子的变化偏离均值变化越大,越有可能是根因。
指标波动有上升或下降,因此贡献度也有正和负之分,全部维度因子贡献度加总约为0%。在查看原因时,更关注与指标值同向变化的维度因子。

  • 当指标波动上涨时,例如指标波动率为 +20%,正向贡献较大的因子将会排在头部,如TOP1影响因子很可能为贡献度>30%的某因子。
  • 当指标波动下降时,例如指标波动率为 -20%,负向贡献较大的因子将会排在头部,如TOP1维度因子很可能为贡献度<-30%的某因子。

但是,超均贡献度主要的意义还是在于(排序)定位因子,数字本身实际的解释性还有待加强。

综合贡献计算法
1.问题提出

提出用综合贡献来度量维度因子对均值指标的影响大小的出发点有二:

  • 由于均值指标在不同维度上的不可加和性(比如各商品类目的客单价加和不等于总的客单价),无论是使用偏移量还是超均贡献度,均无法准确度量不同因子对均值指标的影响程度
  • 均值指标的波动分析往往存在“辛普森悖论”问题,比如指标整体下降但维度下各细分因子均上升,因此需要区分结构内和结构外两种变动的影响。
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-241VC1JS-1647997131940)(./pic/综合贡献.jpg)]
    通过对直播、增长、海外增长等多个FT的DA进行调研,发现基于分析投资组合收益率的BHB Model的均值指标拆解方式可以有效解决上述问题。
2 计算公式

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-d2wsykZo-1647997131941)(./pic/综合贡献2.jpg)]
可以发现,均值指标本身的变化可以拆解为三部分:

  • 组间贡献值:衡量结构变化(因子分母占比变化)对指标变化的影响。
  • 组内贡献值:衡量因子量级变化对指标变化的影响。
  • 交叉贡献值:衡量组间和组内交叉效应对指标带来的变化影响,属于高阶项,一般可忽略。

上述拆解方式存在以下优点:

  • 可同时衡量结构内和结构外的变动,避免分析均值指标波动时产生“辛普森悖论”。
  • 不同贡献值之间完全可加和,加和等于指标本身的变动,可量化为0-100%的贡献度,易于理解。
  • 无需单独查看分子和分母的变动影响,通过不同贡献值即可对均值指标进行维度拆解。
3 案例说明

可参考知乎专栏

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值