对于正态分布(高斯分布):3
σ
\sigma
σ 原则。更高标准和更低标准可适当调整。
[
X
‾
\overline { X }
X + 3
σ
\sigma
σ,
X
‾
\overline { X }
X + 3
σ
\sigma
σ]
但是并不是所有的从正态分布中抽取的小样本都满足正态分布。
这种情况下 四分位距法就可以进行一定程度上的异常值剔除。
IQR = Q3 − Q1
[Q1 - kIQR, Q3 + kIQR]
四分位差反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中;其数值越大,说明中间的数据越分散。四分位差不受极值的影响。此外,由于中位数处于数据的中间位置,因此,四分位差的大小在一定程度上也说明了中位数对一组数据的代表程度。四分位差主要用于测度顺序数据的离散程度。对于数值型数据也可以计算四分位差,但不适合分类数据。
时序信号中的异常值检测、剔除
https://vectorf.github.io/2017/03/14/20170314-Prophet之使用篇(六)/
标准差法
四分位距法