1、作用
可检测与处理变量数据中包含的异常值,异常值检测逻辑是对变量的数据集(类似于列)按照设置的阈值进行判定,筛选出落在异常值检测范围内的数据,再根据处置方法将原数据替换。
2、输入输出描述
输入:原始数据列
输出:去除异常值后的数据列
3、建模步骤
拉以达准则
数据需要服从正态分布,正负3∂的概率是99.7%,那么距离平均值3∂之外的值出现的概率为P(|x-u| 3∂) = 0.003,属于极个别的小概率事件。如果数据不服从正态分布,也可以用远离平均值的多少倍标准差来描述。
IQR识别
四分位距(IQR)就是上四分位与下四分位的差值。而我们通过IQR的1.5倍为标准,规定:超过(上四分位+1.5倍IQR距离,或者下四分位-1.5倍IQR距离)的点为异常值。