缺失值处理

最新推荐文章于 2022-11-30 15:56:50 发布

生产队的驴儿

最新推荐文章于 2022-11-30 15:56:50 发布

阅读量135

点赞数

分类专栏：机器学习数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46969441/article/details/119755638

版权

机器学习同时被 2 个专栏收录

17 篇文章 13 订阅

订阅专栏

13 篇文章 1 订阅

订阅专栏

缺失值处理

用0来填充 nan缺失值

data_train.fillna(0)

用均值填充

data_train.fillna(data_train.mean())

上下数据填充

上文数据

data_train.fillna(method='pad')  
下文数据

```python
data_train.fillna(method='bfill')

把变量映射到高维空间
比如性别，有男、女、缺失三种情况，则映射成3个变量：是否男、是否女、是否缺失
算法预测缺失值填充

K最近距离邻法（K-means clustering）：
先根据某种距离度量选择出k个“邻居”，他们的均值就被用于插补缺失数据。这个方法要求我们选择k的值（最近邻居的数量），以及距离度量。KNN既可以预测离散属性（k近邻中最常见的值）也可以预测连续属性（k近邻的均值）。

根据数据类型的不同，距离度量也不尽相同
1、连续数据：最常用的距离度量有欧氏距离，曼哈顿距离以及余弦距离。
2、分类数据：汉明（Hamming）距离在这种情况比较常用。对于所有分类属性的取值，如果两个数据点的值不同，则距离加一。汉明距离实际上与属性间不同取值的数量一致。
回归（Regression）：
对于包含空值的对象，将已知属性值代入方程来估计未知属性值，以此估计值来进行填充。当变量不是线性相关时会导致有偏差的估计。较常用。
注意防止过拟合

生产队的驴儿

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
缺失值处理

缺失值处理用0来填充 nan缺失值data_train.fillna(0) 用均值填充data_train.fillna(data_train.mean()) 上下数据填充上文数据data_train.fillna(method='pad') 下文数据```pythondata_train.fillna(method='bfill') 插入值填充算法预测缺失值填充...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。