LR模型相关知识点
归一化
- 机器学习中为什么需要归一化?
(1) 消除量纲影响
健康=3身高+2体重,身高单位:米,体重单位:斤
Δ身高=0.3,Δ体重=5,前者变化更大,但‘健康’指标变化小
(2)可以加速优化过程,后加快了梯度下降求最优解的速度;(减少迭代次数,加快模型的训练)
数据归一化后,最优解的寻优过程明显会变得平缓,更容易正确的收敛到最优解。
两个特征区别相差特别大。所形成的等高线比较尖锐。当时用梯度下降法时,很可能要垂直等高线走,需要很多次迭代才能收敛。
对两个原始特征进行了归一化处理,其对应的等高线相对来说比较圆,在梯度下降时,可以较快的收敛。
(3)归一化有可能提高精度
有些分类器需要计算样本之间的距离,例如k-means。如果一个特征的值域范围特别大。那么距离计算就主要取决于这个特征,有时会与实际情况相违背。(比如这时实际情况是值域范围小的特征更重要)
- 哪些归一化的方法?
Ⅰ 线性函数归一化
缺陷:
1)当有新数据加入时,可能导致max和min的变化,需要重新定义
2)存在极端的最大最小值,即易受异常值影响
适用:
如果对输出结果范围有要求,用归一化
如果数据较为稳定,不存在极端的最大最小值,用归一化
Ⅱ 0均值标准化
适用:
如果数据存在异常值和较多噪音,用标准化,可以间接通过中心化避免异常值和极端值的影响
归一化与标准化的区别