数据预处理第4讲:缺失值填补

数据预处理中,处理缺失值是一项关键任务。本文介绍了如何利用单特征和多特征填补方法来应对缺失值问题,以及如何通过生成多项式特征增强模型复杂度。单特征填补可使用特征的均值、中位数或众数,而多特征填补则通过建立回归模型预测缺失值。此外,通过多项式特征创建,可以捕捉特征间的非线性关系。
摘要由CSDN通过智能技术生成

论文合作、课题指导请联系QQ2279055353

很多真实的数据集包括缺失值,这些缺失项通常编码为空,NaN, 或其它占位符。对待含缺失值的数据集,常见的处理办法是去掉缺失项所在的整行或整列。然而,这种办法的代价是失去了可能有信息的观测或变量。这样,一种更好的策略是填补缺失值,即,根据数据的已知部分,用特定的值代替它们。下面,我们介绍常用的缺失值填补方法。

单特征填补

单特征填补,是用缺失项所在的特征的非缺失值填补。SimpleImputer类提供了基本的单特征填补方法,包括使用常数值,特征的均值、中位数、众数统计量。下面的例子,使用列(axis 0)均值填补编码为NaN的缺失项。
在这里插入图片描述
SimpleImputer类也支持类别变量的缺失填补,使用most_frequent or constant的参数值。
在这里插入图片描述

多特征填补

IterativeImputer类提供更加复杂的填补模型,使用特征的函数作为估计量。具体上说,在每一步,定义一个特征列作为输出y, 其它列组成输入X; 拟合关于(y, X)的回归模型,预测y的缺失值。
在这里插入图片描述

产生多项式特征

我们经常通过输入特征的非线性变换,增加模型的复杂度。一个简单的方法是使用多项式特征,即,产生特征的幂次或乘积项。PolynomialFeatures类产生多项式特征。下面,我们根据输入特征 ( X 1 , X 2 ) (X_1, X_2)

在机器学习中,数据预处理是非常重要的一步。其中,处理缺失值数据预处理的一项重要任务。插补是一种常用的处理缺失值的方。它通过利用已有数据的信息,对缺失值进行估计或预测,从而填补缺失值。以下是一些常用的插补: 1. 均值插补 均值插补是一种常用的插补,它通过计算非缺失值的平均值来填补缺失值。这种方对于连续变量非常有效,但对于分类变量不是很适用。 2. 中位数插补 中位数插补类似于均值插补,但是使用的是中位数。这种方对于连续变量非常有效,并且相对于均值插补更稳健,因为它受到极端值的影响较小。 3. 众数插补 众数插补是用于分类变量的一种插补。它通过计算非缺失值的众数来填补缺失值。这种方对于分类变量非常有效,并且相对于均值插补和中位数插补更稳健。 4. 回归插补 回归插补是一种基于回归分析的插补。它通过使用非缺失值来建立一个回归模型,然后使用模型来预测缺失值。这种方对于连续变量非常有效,并且可以使用各种回归算,如线性回归、多项式回归和决策树回归等。 5. K近邻插补 K近邻插补是一种基于相似性的插补。它通过查找与缺失值最接近的K个非缺失值来预测缺失值。这种方对于连续变量和分类变量都很有效,并且可以使用各种距离度量方,如欧氏距离、曼哈顿距离和余弦相似度等。 需要注意的是,插补只是一种处理缺失值的方,它并不能保证预测的缺失值是准确的。因此,在使用插补处理缺失值时,需要进行适当的评估和验证。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值