【机器学习】Python数据预处理（1）异常值处理

最新推荐文章于 2024-05-17 09:27:00 发布

ZOEMMM

最新推荐文章于 2024-05-17 09:27:00 发布

阅读量6.8k

点赞数 2

分类专栏：机器学习 Python实现

本文链接：https://blog.csdn.net/zeo_m/article/details/81877633

版权

本文介绍了数据预处理中异常值处理的重要步骤。通过计算数据的上四分位数和下四分位数，确定四分位距IQR，并设置异常值的边界。例如，当数据中出现超过四分位距1.5倍范围的值时，可视为异常。对于矩阵数据，可以按列检测异常值，并规定若一个样本超过4个特征超出范围，则认为该样本异常。异常值处理前需先处理缺失值和标签量。

摘要由CSDN通过智能技术生成

异常值

数据预处理第一步，通常是对异常值的处理。首先，要得到数据的上四分位数和下四分位数，利用np.percentile()，用法如下。

import numpy as np
x = np.array([[1,2,3],[7,8,9]])
Q1 = np.percentile(x,25) # 1st quartile
Q3 = np.percentile(x,75) # 3st quartile

假设数据集是x = [1, 2, 3, ..., 98, 99, 10000]，显然最后一个数10000是一个超限点。它的Q1 = 25, Q3 = 75，四分位距IQR（the interquartile range）=Q1 - Q3。若上下界分别扩大0.5倍，令k = 1.5为high = Q3 + k * (Q3 - Q1)，下界为low = Q1 - k * (Q3 - Q1)，即上界为-50下界为150，显然10000超限。如果想调整上界下界的范围，调整系数即可。

对于一个矩阵df，按列循环找到每列数据的异常值，如果某个样本含有n个以上的超限特征，返回行号。

最低0.47元/天解锁文章

ZOEMMM

关注

2
点赞
踩
19

收藏

觉得还不错? 一键收藏
2
评论
【机器学习】Python数据预处理（1）异常值处理

异常值数据预处理第一步，通常是对异常值的处理。首先，要得到数据的上四分位数和下四分位数，利用np.percentile()，用法如下。import numpy as npx = np.array([[1,2,3],[7,8,9]])Q1 = np.percentile(x,25) # 1st quartileQ3 = np.percentile(x,75) # 3st quartil...
复制链接

扫一扫

专栏目录