背景
数据监控,核心聚焦在子维度粒度数据波动的解读,但是不便于定位异常波动水平,以及进行指标下钻分析,难以直接定位指标变动来源。难以量化子维度贡献度
例如:11点准时率下滑,但通过分省份数据很难直接各省份波动程度,也不便于定位各省份对11点准时率下滑影响。
目标
自动化实现指标异动监控预警及变化来源量化定位。
方法思路
确定各个维度层级异常预警逻辑,简单定位异常省份&品类:
方法一
绝对值阈值法,直接确定一个边界值,超过即预警,例如准时率低于50%即预警,结果可能预警过多。适用于目标导向,目前值不宜直接拍死,不同情况差异较大,阈值不好定;
方法二
变化值阈值法,直接确定一个边界值,超过即预警;
方法三
箱线图or上下三倍标准差异常剔除;适用于业务发展时间较长,数据丰富且业务稳定期;
其他(放弃)
异常侦测技术,如聚类,Prophet等。
子维度异动的贡献度量化
核心指标变化贡献度分析:按维度拆解&按子指标归因。
指标类型一:加法
结果 y y y由 n n n个子指标加和构成:
y = ∑ i = 1 n a i ∗ x i , ( a i 为常数系数 ) y = \sum_{i=1}^n{a_i * x_i}, (a_i 为常数系数) y=∑i=1nai∗xi,(ai为常数系数)
第 i i i个指标贡献度计算:
x i x_i xi的敏感度:
∂ y ∂ x i = a i \frac{\partial y}{\partial x_i}=a_i ∂xi∂y=ai
x i x_i xi的贡献度:
I ( x i ) = Δ x i ∣ Δ y ∣ × ∂ y ∂ x i = a i Δ x i ∣ Δ y ∣ I(x_i) = \frac{\Delta x_i}{|\Delta y|} \times \frac{\partial y}{\partial x_i}=a_i \frac{\Delta x_i}{|\Delta y|} I(xi)=∣Δy∣Δxi×∂xi∂y=ai∣Δy∣Δxi
即, 贡献度 ( 子维度 i ) = 常数系数 × Δ 子维度 i / ∣ Δ 监控指标 ∣ 贡献度(子维度i) = 常数系数 \times \Delta 子维度i / |\Delta 监控指标| 贡献度(子维度i)=常数系数×Δ子维度i/∣Δ监控指标∣
注: I ( x i ) I(x_i) I(xi)有符号,如果是正数,表示 x i x_i xi的变化对于 y y y是正向影响,否则表示负向影响。其物理理意义为 x i x_i xi单一因子变化对于整体变化的贡献程度。
例:
缺货投诉率 y y y = 漏件投诉率 x 1 x_1 x1 + 16点未见司机投诉率 x 2 x_2 x2 + 团长拒收率 x 3 x_3 x3
假设上周 ( y , , x 1 , , x 2 , , x 3 , ) = ( 6 % , 1 % , 2 % , 3 % ) (y^,, x_1^,, x_2^,, x_3^,) = (6\%,1\%,2\%,3\%) (y,,x1,,x2,,x3,)=(6%,1%,2%,3%)
本周 ( y , x 1 , x 2 , x 3 ) = ( 8 % , 4 % , 2 % , 2 % ) (y, x_1, x_2, x_3) = (8\%,4\%,2\%,2\%) (y,x1,x2,x3)=(8%,4%,2%,2%)
那么, Δ y = 8 % − 6 % = 2 % \Delta y=8\%-6\%=2\% Δy=8%−6%=2%,其中 x 1 , x 2 , x 3 x_1, x_2, x_3 x1,x2,x3的贡献度分别为:
I ( x 1 ) = Δ x 1 Δ y = 4 % − 1 % 2 % = 150 % I(x_1)=\frac{\Delta x_1}{\Delta y} = \frac{4\%-1\%}{2\%} = 150\% I(x1)=ΔyΔx1=2%4%−1%=150%
I ( x 2 ) = Δ x 2 Δ y = 2 % − 2 % 2 % = 0 % I(x_2)=\frac{\Delta x_2}{\Delta y} = \frac{2\%-2\%}{2\%} = 0\% I(x2)=ΔyΔx