1. 背景
使用IQR(Interquartile Range,四分位距)方法来识别和处理异常值的背景建立在统计学的几个核心概念上。IQR方法主要基于数据的分位数,特别是四分位数,这是一种非常有效的方式来衡量数据的扩散度或变异性,并用于识别可能的异常或离群值。
四分位数和IQR的定义
- 四分位数:数据分布中的三个点,将数据集分成四等分的点。第一四分位数(Q1)是数据中所有数值中最小的25%,第二四分位数(Q2,也就是中位数)是最小的50%,第三四分位数(Q3)是最小的75%。
- 四分位距(IQR):是第三四分位数(Q3)和第一四分位数(Q1)之间的差值,IQR描述了中间50%数据的扩散程度。
IQR方法的理论基础
IQR被用来定义异常值的界限,是因为它基于一个假设,即大多数数据(约99.3%)在一个正常分布中应该落在距离平均值有三个标准差的范围内。IQR方法假设数据中大部分(通常是中间的50%)是正常的,而在这个范围之外的点则可能是异常的。这种方法不假设数据遵循正态分布,使其适用性更广。
使用IQR的背景和适用性
- 稳健性:IQR对极端值不敏感,这使得它在包含异常值或极端值的数据集中特别有用。
- 多领域