数据预处理

xbmatrix

于 2017-03-23 20:59:26 发布

阅读量988

点赞数

分类专栏：特征工程

本文链接：https://blog.csdn.net/xbmatrix/article/details/65448676

版权

特征工程专栏收录该内容

9 篇文章 1 订阅

订阅专栏

参考：

http://mp.weixin.qq.com/s?__biz=MjM5MTQzNzU2NA==&mid=2651647587&idx=2&sn=d0d3a69ce141f4015d6e0320048fbe63&chksm=bd4dc9f08a3a40e6eb2056107db353b4b657077ef8d3f999c757a70c97802a2de35241298abe&mpshare=1&scene=1&srcid=0323iBzLDEcUEEDRMZUsho68#rd

http://blog.csdn.net/lizhengnanhua/article/details/8982968

1. 空缺值：忽略该记录；去掉属性；手工填写空缺值；使用默认值；使用平均值；预测最可能的值。

2. 连续值：离散化。有的模型（如决策树）需要离散值

3. 离散值: OneHot编码。有的离散特征如颜色需OneHot编码。

4. 对定量特征二值化。核心在于设定一个阈值，大于阈值的赋值为1，小于等于阈值的赋值为0。如图像操作

5. 噪声：平滑，有按平均值平滑、按边界值平滑和按中值平滑。

6. 归一化：将数据按比例缩放，使这些数据落入到一个较小的特定的区间之内。概率模型不需要归一化，因为它们不关心变量的值，而是关心变量的分布和变量之间的条件概率，如决策树、rf、gbdt、xgboost。而像svm、lr、KNN、KMeans之类的最优化问题就需要归一化。

a.最小最大缩放

b.Z-score标准化。让数据服从基于 μ=0 和 σ=1的标准正态分布

7. 标签编码：把字符类别特征编码成数值类型，如红绿蓝编码为0、1、2

最小最大缩放：
当使用基于距离的算法时，我们必须尝试将数据缩放，这样较不重要的特征不会因为自身较大的范围而主导目标函数。如KNN。
在逻辑回归中，每个特征都被分配了权重或系数(Wi)。如果某个特征有相对来说比较大的范围，而且其在目标函数中无关紧要，那么逻辑回归模型自己就会分配一个非常小的值给它的系数，从而中和该特定特征的影响优势，而基于距离的方法，如KNN，没有这样的内置策略，因此需要缩放。
Z-score标准化:

很多的机器学习技巧/模型（例如L1，L2正则项，向量空间模型-Vector Space Model，欧几里得距离测量的KNN、k-均值、SVM、感知器、神经网络、线性判别分析、主成分分析）都基于这样的假设：所有的属性取值都差不多是以0为均值且取值范围相近的，标准化数据帮助我们提高预测模型的精度。

备注：在缩放和标准化中二选一是个令人困惑的选择，你必须对数据和要使用的学习模型有更深入的理解，才能做出决定。对于初学者，你可以两种方法都尝试下并通过交叉验证精度来做出选择。