绝对中位差Median Absolute Deviation

文章目录

    绝对中位差Median Absolute Deviation
        示例
        用途
        MAD与标准差的关系
        总体MAD
        R语言MAD函数

绝对中位差Median Absolute Deviation

参考维基百科中的MAD定义

在统计学中,绝对中位数MAD是对单变量数值型数据的样本偏差的一种鲁棒性测量。同时也可以表示由样本的MAD估计得出的总体参数。

对于单变量数据集 X 1 , X 2 , . . . , X n X_1, X_2, ..., X_n X1​,X2​,...,Xn​,MAD定义为数据点到中位数的绝对偏差的中位数:

M A D = m e d i a n ( ∣ X i − m e d i a n ( X ) ∣ ) MAD = median(|X_i-median(X)|) MAD=median(∣Xi​−median(X)∣)

也就是说,先计算出数据与它们的中位数之间的残差(偏差),MAD就是这些偏差的绝对值的中位数。
示例

考虑数据集(1, 1, 2, 2, 4, 6, 9),它的中位数为2。数据点到2的绝对偏差为(1, 1, 0, 0, 2, 4, 7),该偏差列表的中位数为1(因为排序后的绝对偏差为(0, 0, 1, 1, 2, 4, 7))。所以该数据的绝对中位差为1。
用途

绝对中位差是一种统计离差的测量。而且,MAD是一种鲁棒统计量,比标准差更能适应数据集中的异常值。对于标准差,使用的是数据到均值的距离平方,所以大的偏差权重更大,异常值对结果也会产生重要影响。对于MAD,少量的异常值不会影响最终的结果。

由于MAD是一个比样本方差或者标准差更鲁棒的度量,它对于不存在均值或者方差的分布效果更好,比如柯西分布。
MAD与标准差的关系

为了能将MAD当作标准差 σ \sigma σ估计的一种一致估计量,使用

σ ^ = k ⋅ M A D \hat\sigma = k \cdot MAD σ^=k⋅MAD

其中 k 为比例因子常量,值取决于分布类型。

对于正态分布数据,k的值为:

k = 1 / ( Φ − 1 ( 3 / 4 ) ) ≈ 1.4826 k = 1/(\Phi^{-1}(3/4)) \approx 1.4826 k=1/(Φ−1(3/4))≈1.4826

也就是标准正态分布 Z = X / σ Z = X/\sigma Z=X/σ的分位函数的倒数(也称为逆累积分布函数)。数值3/4是为了 ± M A D \pm MAD ±MAD包含标准正态累积分布函数的50%(从1/4到3/4的范围值),也就是:

1 2 = P ( ∣ X − μ ∣ ≤ M A D ) = P ( ∣ X − μ σ ∣ ≤ M A D σ ) = P ( ∣ Z ∣ ≤ M A D σ ) . {1 \over 2} = P(|X-\mu| \le MAD) = P(|{X-\mu \over \sigma}| \le {MAD \over \sigma}) = P(|Z| \le {MAD \over \sigma}). 21​=P(∣X−μ∣≤MAD)=P(∣σX−μ​∣≤σMAD​)=P(∣Z∣≤σMAD​).

所以,必须有:

Φ ( M A D / σ ) − Φ ( − M A D / σ ) = 1 / 2 \Phi(MAD/\sigma) - \Phi(-MAD/\sigma) = 1/2 Φ(MAD/σ)−Φ(−MAD/σ)=1/2

更多请见:http://www.mark-to-win.com/tutorial/51696.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值