虽然对异常值的处理这一部分导师在数据预处理过程中没有提及,但数据集明显存在异常值(见下文),所以自学并将其加入预处理环节。
一、四分位数
1、理论知识
将一组数据由小到大排列并分成四等份:
最小的数值记为下界;
位于1/4位置的数为下四分位数,记为Q1;
位于1/2位置的数为中位数,记为Q2;
位于3/4位置的数为上四分位数,记为Q3;
最大的数值记为上界。
2、实际操作
可以利用 describe() 查看数据集各特征的min、25%、50%、75%、max值(如下)
二、箱形图
1、理论知识
箱形图: 用上边缘、上四分位数、中位数、下四分位数、下边缘5个数字来表示一组数据分布的图形展现形式,因为形状如箱子而得名。
2、实际操作
利用matplotlib自带的 boxplot() 可绘制各特征数值对应的箱形图(如下)
三、Tukey‘s Test
1、理论知识
- Q3代表上四分位数,Q1代表下四分位数;
- k代表常数系数,当k=3时,代表极度异常值;
当k=1.5时,代表中度异常值,一般取1.5。 - IQR代表四分位距,包含了全部观察值的一半。
I Q R = Q 3 − Q 1 IQR = Q3-Q1 IQ