缺失值处理
- 用0来填充 nan缺失值
data_train.fillna(0)
- 用均值填充
data_train.fillna(data_train.mean())
- 上下数据填充
上文数据
data_train.fillna(method='pad')
下文数据
```python
data_train.fillna(method='bfill')
-
把变量映射到高维空间
比如性别,有男、女、缺失三种情况,则映射成3个变量:是否男、是否女、是否缺失 -
算法预测缺失值 填充
K最近距离邻法(K-means clustering):
先根据某种距离度量选择出k个“邻居”,他们的均值就被用于插补缺失数据。这个方法要求我们选择k的值(最近邻居的数量),以及距离度量。KNN既可以预测离散属性(k近邻中最常见的值)也可以预测连续属性(k近邻的均值)。
根据数据类型的不同,距离度量也不尽相同
1、连续数据:最常用的距离度量有欧氏距离,曼哈顿距离以及余弦距离。
2、分类数据:汉明(Hamming)距离在这种情况比较常用。对于所有分类属性的取值,如果两个数据点的值不同,则距离加一。汉明距离实际上与属性间不同取值的数量一致。
回归(Regression):
对于包含空值的对象,将已知属性值代入方程来估计未知属性值,以此估计值来进行填充。当变量不是线性相关时会导致有偏差的估计。较常用。
注意防止过拟合