数据预处理第4讲:缺失值填补

数据预处理中,处理缺失值是一项关键任务。本文介绍了如何利用单特征和多特征填补方法来应对缺失值问题,以及如何通过生成多项式特征增强模型复杂度。单特征填补可使用特征的均值、中位数或众数,而多特征填补则通过建立回归模型预测缺失值。此外,通过多项式特征创建,可以捕捉特征间的非线性关系。
摘要由CSDN通过智能技术生成

论文合作、课题指导请联系QQ2279055353

很多真实的数据集包括缺失值,这些缺失项通常编码为空,NaN, 或其它占位符。对待含缺失值的数据集,常见的处理办法是去掉缺失项所在的整行或整列。然而,这种办法的代价是失去了可能有信息的观测或变量。这样,一种更好的策略是填补缺失值,即,根据数据的已知部分,用特定的值代替它们。下面,我们介绍常用的缺失值填补方法。

单特征填补

单特征填补,是用缺失项所在的特征的非缺失值填补。SimpleImputer类提供了基本的单特征填补方法,包括使用常数值,特征的均值、中位数、众数统计量。下面的例子,使用列(axis 0)均值填补编码为NaN的缺失项。
在这里插入图片描述
SimpleImputer类也支持类别变量的缺失填补,使用most_frequent or constant的参数值。
在这里插入图片描述

多特征填补

IterativeImputer类提供更加复杂的填补模型,使用特征的函数作为估计量。具体上说,在每一步,定义一个特征列作为输出y, 其它列组成输入X; 拟合关于(y, X)的回归模型,预测y的缺失值。
在这里插入图片描述

产生多项式特征

我们经常通过输入特征的非线性变换,增加模型的复杂度。一个简单的方法是使用多项式特征,即,产生特征的幂次或乘积项。PolynomialFeatures类产生多项式特征。下面,我们根据输入特征 ( X 1 , X 2 ) (X_1, X_2)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值