数据预处理

参考:

http://mp.weixin.qq.com/s?__biz=MjM5MTQzNzU2NA==&mid=2651647587&idx=2&sn=d0d3a69ce141f4015d6e0320048fbe63&chksm=bd4dc9f08a3a40e6eb2056107db353b4b657077ef8d3f999c757a70c97802a2de35241298abe&mpshare=1&scene=1&srcid=0323iBzLDEcUEEDRMZUsho68#rd

http://blog.csdn.net/lizhengnanhua/article/details/8982968

1. 空缺值:忽略该记录;去掉属性;手工填写空缺值;使用默认值;使用平均值;预测最可能的值。

2. 连续值:离散化。有的模型(如决策树)需要离散值

3. 离散值: OneHot编码。有的离散特征如颜色需OneHot编码。

4. 对定量特征二值化。核心在于设定一个阈值,大于阈值的赋值为1,小于等于阈值的赋值为0。如图像操作

5. 噪声:平滑,有按平均值平滑、按边界值平滑和按中值平滑。

6. 归一化:将数据按比例缩放,使这些数据落入到一个较小的特定的区间之内。概率模型不需要归一化,因为它们不关心变量的值,而是关心变量的分布和变量之间的条件概率,如决策树、rf、gbdt、xgboost。而像svm、lr、KNN、KMeans之类的最优化问题就需要归一化。

a.最小最大缩放

b.Z-score标准化。让数据服从基于 μ=0 和 σ=1的标准正态分布

7. 标签编码:把字符类别特征编码成数值类型,如红绿蓝编码为0、1、2


最小最大缩放:
当使用基于距离的算法时,我们必须尝试将数据缩放,这样较不重要的特征不会因为自身较大的范围而主导目标函数。如KNN。
在逻辑回归中,每个特征都被分配了权重或系数(Wi)。如果某个特征有相对来说比较大的范围,而且其在目标函数中无关紧要,那么逻辑回归模型自己就会分配一个非常小的值给它的系数,从而中和该特定特征的影响优势,而基于距离的方法,如KNN,没有这样的内置策略,因此需要缩放。
Z-score标准化:

很多的机器学习技巧/模型(例如L1,L2正则项,向量空间模型-Vector Space Model,欧几里得距离测量的KNN、k-均值、SVM、感知器、神经网络、线性判别分析、主成分分析)都基于这样的假设:所有的属性取值都差不多是以0为均值且取值范围相近的,标准化数据帮助我们提高预测模型的精度。

备注:在缩放和标准化中二选一是个令人困惑的选择,你必须对数据和要使用的学习模型有更深入的理解,才能做出决定。对于初学者,你可以两种方法都尝试下并通过交叉验证精度来做出选择。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值