归一化、标准化、正则化

最新推荐文章于 2024-07-01 14:20:03 发布

宝哥大数据

最新推荐文章于 2024-07-01 14:20:03 发布

阅读量710

点赞数

分类专栏： # 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wuxintdrh/article/details/105240652

版权

机器学习专栏收录该内容

60 篇文章 6 订阅

订阅专栏

无量纲化

无量纲化使不同规格的数据转换到同一规格。常用的无量纲化方法有标准化和区间缩放法。标准化的前提是特征值服从正态分布，标准化后，其转换成标准正态分布；区间缩放法利用了边界值信息，将特征的取值区间缩放到某个特点的范围，例如[0,1]等。

一、标准化(Standardization)

标准化的前提是特征值服从正态分布，标准化后，其转换成标准正态分布

1.1、`Z-score`标准化

$\frac{x-\mu}{\sigma}$

二、归一化（Normalization or scaling）

区间缩放法利用了边界值信息，将特征的取值区间缩放到某个特点的范围，例如[0,1]等。
对基于gradient descent算法友好，可能可以让算法最终收敛并且提高训练速度和精度。现在Deep Learning大都基于这算法训练。

2.1、线性函数归一化(Min-Max Scaling，最大最小值归一化)，将数据映射到`[0,1]`的范围内。

$X_{norm} = \frac{X-X_{min}}{X_{max}-X_{min}}$

三、正则化(Regularization)

防止训练过拟合的手段

一般形式，应该是 min
在这里插入图片描述
R是regularization term。一般方法有

L1 regularization: 对整个绝对值只和进行惩罚。
L2 regularization：对系数平方和进行惩罚。
Elastic-net 混合regularization。

四、总结

如果模型用梯度下降来进行求解，数据归一化主要对收敛速度产生影响。将各个特征映射到同一个区间内，可以使得各个特征的更新速度变得更一致，容易更快地通过梯度下降找到最优解。
通过梯度下降求解的模型通常需要归一化，包括线性回归、逻辑回归、支持向量机、神经网络等。但对于决策树并不适用。例如C4.5节点分裂主要依据信息增益比，而归一化并不会改变信息增益比。

注：经过实践，确实是这样，有可能归一化之后反而使决策树性能下降。

Reference:

About Feature Scaling and Normalization

宝哥大数据

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。