数据预处理第4讲：缺失值填补

最新推荐文章于 2024-07-25 23:56:17 发布

Goodsta

最新推荐文章于 2024-07-25 23:56:17 发布

阅读量3k

点赞数

本文链接：https://blog.csdn.net/wong2016/article/details/104353317

版权

数据预处理中，处理缺失值是一项关键任务。本文介绍了如何利用单特征和多特征填补方法来应对缺失值问题，以及如何通过生成多项式特征增强模型复杂度。单特征填补可使用特征的均值、中位数或众数，而多特征填补则通过建立回归模型预测缺失值。此外，通过多项式特征创建，可以捕捉特征间的非线性关系。

摘要由CSDN通过智能技术生成

论文合作、课题指导请联系QQ2279055353

很多真实的数据集包括缺失值，这些缺失项通常编码为空，NaN, 或其它占位符。对待含缺失值的数据集，常见的处理办法是去掉缺失项所在的整行或整列。然而，这种办法的代价是失去了可能有信息的观测或变量。这样，一种更好的策略是填补缺失值，即，根据数据的已知部分，用特定的值代替它们。下面，我们介绍常用的缺失值填补方法。

单特征填补

单特征填补，是用缺失项所在的特征的非缺失值填补。SimpleImputer类提供了基本的单特征填补方法，包括使用常数值，特征的均值、中位数、众数统计量。下面的例子，使用列(axis 0)均值填补编码为NaN的缺失项。
在这里插入图片描述
SimpleImputer类也支持类别变量的缺失填补，使用most_frequent or constant的参数值。