缺失值处理

缺失值处理

  1. 用0来填充 nan缺失值
data_train.fillna(0) 
  1. 用均值填充
data_train.fillna(data_train.mean()) 
  1. 上下数据填充

上文数据

data_train.fillna(method='pad')  
下文数据

```python
data_train.fillna(method='bfill') 
  1. 把变量映射到高维空间
    比如性别,有男、女、缺失三种情况,则映射成3个变量:是否男、是否女、是否缺失

  2. 算法预测缺失值 填充

K最近距离邻法(K-means clustering)
先根据某种距离度量选择出k个“邻居”,他们的均值就被用于插补缺失数据。这个方法要求我们选择k的值(最近邻居的数量),以及距离度量。KNN既可以预测离散属性(k近邻中最常见的值)也可以预测连续属性(k近邻的均值)。

根据数据类型的不同,距离度量也不尽相同
1、连续数据:最常用的距离度量有欧氏距离,曼哈顿距离以及余弦距离。
2、分类数据:汉明(Hamming)距离在这种情况比较常用。对于所有分类属性的取值,如果两个数据点的值不同,则距离加一。汉明距离实际上与属性间不同取值的数量一致。
回归(Regression):
对于包含空值的对象,将已知属性值代入方程来估计未知属性值,以此估计值来进行填充。当变量不是线性相关时会导致有偏差的估计。较常用。
注意防止过拟合

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值