Z-score异常值检测法是一种基于统计学原理的异常值检测技术。它通过计算数据点与数据集平均值的标准化距离来判断该数据点是否为异常值。
一、原理
Z-score异常值检测法的原理是基于标准正态分布。它通过计算每个数据点与数据集平均值的差距,并将其转换为标准差的倍数,以此来评估数据点的异常程度。在标准正态分布中,大约68%的数据点位于平均值的一个标准差之内,95%的数据点位于两个标准差之内,而99.7%的数据点位于三个标准差之内。因此,如果一个数据点的Z-score绝对值很大,即它距离平均值很多个标准差,那么它很可能是一个异常值。
Z-score的计算公式如下:
其中:
- 𝑍是数据点 𝑋X 的Z-score。
- 𝑋 是数据集中的某个数据点。
- 𝜇 是数据集的平均值(均值)。
- 𝜎 是数据集的标准差。
通常情况下,有两种常见的阈值选择:
-
阈值 = 2:如果使用Z-score的绝对值大于2作为异常值的判定标准,那么大约有95%的数据将位于这个阈值内,这意味着只有大约5%的数据可能被视为异常值。这是一个相对宽松的阈值,适用于不想过多排除数据点的情况。
-
阈值 = 3:如果使用Z-score的绝对值大于3作为异常值的判定标准,那么