SDU项目实训记录1.5——异常值处理(7.2)

虽然对异常值的处理这一部分导师在数据预处理过程中没有提及,但数据集明显存在异常值(见下文),所以自学并将其加入预处理环节。

一、四分位数

1、理论知识

将一组数据由小到大排列并分成四等份:

最小的数值记为下界;
位于1/4位置的数为下四分位数,记为Q1;
位于1/2位置的数为中位数,记为Q2;
位于3/4位置的数为上四分位数,记为Q3;
最大的数值记为上界。
在这里插入图片描述

2、实际操作

可以利用 describe() 查看数据集各特征的min、25%、50%、75%、max值(如下)
在这里插入图片描述

二、箱形图

1、理论知识

箱形图: 用上边缘、上四分位数、中位数、下四分位数、下边缘5个数字来表示一组数据分布的图形展现形式,因为形状如箱子而得名。
在这里插入图片描述

2、实际操作

利用matplotlib自带的 boxplot() 可绘制各特征数值对应的箱形图(如下)
在这里插入图片描述

三、Tukey‘s Test

1、理论知识

  • Q3代表上四分位数,Q1代表下四分位数;
  • k代表常数系数,当k=3时,代表极度异常值;
    当k=1.5时,代表中度异常值,一般取1.5。
  • IQR代表四分位距,包含了全部观察值的一半。

I Q R = Q 3 − Q 1 IQR = Q3-Q1 IQ

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

宅女不减肥

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值