机器学习任务中对数值类型做特征归一化的必要性，《百面机器学习》学习笔记

wyypersist

已于 2023-05-13 19:06:31 修改

阅读量505

点赞数

分类专栏：研1沉淀文章标签：机器学习特征归一化特征工程百面机器学习梯度下降

于 2023-05-13 18:27:58 首次发布

本文链接：https://blog.csdn.net/weixin_43749999/article/details/130660382

版权

研1沉淀专栏收录该内容

20 篇文章 9 订阅

订阅专栏

文章讲述了在机器学习任务中，特别是使用梯度下降算法时，对数值型特征进行归一化的必要性。归一化可以影响梯度下降的速度，避免大范围数值导致过多迭代。线性模型、逻辑回归、支持向量机和神经网络等通常需要数据归一化，但决策树模型因其信息增益比计算不受影响，故不需要归一化。

摘要由CSDN通过智能技术生成

《百面机器学习》学习笔记：机器学习任务中对数值类型做特征归一化的必要性

需要使用梯度下降进行优化的方法中，一般都需要对数值类型特征进行特征归一化，因为这会影响到梯度下降的速度。为了更好地说明做数据归一化的必要性，首先给出标准梯度下降的推导公式。

例如，假设 $x_1\in[0,10]$ ， $x_2\in[0,3]$ ，使用标准的梯度下降公式，假设如下所示为简单的线性模型：
$h(\theta) = \theta_0 + \theta_1 x_1 + \theta_2 x_2 + ... + \theta_ix_i$

假设其损失函数为：
$J(\theta)=\frac{1}{2}[h_t(x)-y]^2$
那么得到的梯度下降基本形式如下：
$\theta_{n+1}=\theta_{n}-\alpha J'(\theta)$
其中， $\alpha$ 为学习率。然后，对损失函数最小化，需要对 $J(\theta)$ 求导：
$J'(\theta)=\frac{\partial J(\theta)}{\theta}=[h_{\theta}(x)-y] \times h'_{\theta}$
其中， $h'_{\theta}=x$ ，那么可以得到：
$J'(\theta)=[h_{\theta}(x)-y] \times x$
即：
$\theta_{n+1}=\theta_{n}-\alpha[h_{\theta}(x^{(i)})-y^{(i)}]\times x^{(i)}$

从上述推导过程可以看出，对目标函数中参数的更新速度，主要取决于学习率大小和 $x$ 中具有较大取值范围的变量 $x^i$ ，如果变量 $x^i$ 不进行归一化，那么将会导致到达最佳目标值的更多迭代次数。因此，对数值类型的特征值进行归一化是必要的，有利于加快找到目标函数最优解的速度。

正如《百面机器学习》这本书中提到的，也不是什么任务都可以使用数据归一化，对于线性回归/逻辑回归/支持向量机/神经网络等模型来说，归一化是必要的。但对于决策树模型则并不适用，因为决策树在划分节点时，需要根据数据集 $D$ 关于特征 $x$ 的信息增益比，而信息增益比对特征是否归一化是没有关系的。因为归一化并不会改变样本在特征 $x$ 上的信息增益。