AdaGrad， RMSprop， AdaDelta；动量法， Nesterov加速梯度； Adam

本文链接：https://blog.csdn.net/weixin_44378835/article/details/117413670

文章目录

Gradient descent is all you need

推荐阅读：梯度方向为什么是函数局部增长最快的方向

Gradient descent is all you need

梯度下降法可以分为：批量（batch）梯度下降、随机（stochastic）梯度下降以及小批量（minibatch）梯度下降三种形式。

使用整个训练集的梯度下降被称为 批量梯度下降。每次只使用单个样本的梯度下降称为 随机梯度下降。

大多数用于深度学习的梯度下降算法介于以上两者之间，使用一个以上，但又不是全部的训练样本。传统上，这称为 小批量 或 小批量随机梯度下降：

在这里插入图片描述
图片来源[2]

备注：花书中将小批量随机（minibatch stochastic）梯度下降简称为随机（stochastic）梯度下降。 $L$ 为损失函数。

为了更有效地训练深层神经网络，在标准的小批量梯度下降方法的基础上，也经常使用一些改进方法以加快优化速度。常见的改进方法主要从以下两个方面进行改进：学习率衰减和梯度估计修正。

学习率衰减

假设初始化学习率为 $α_0$ ，在第t次迭代时的学习率 $α_t$ 。常用的衰减方式可以设置为按迭代次数进行衰减。比如

分段常数衰减（Piecewise Constant Decay）

即每经过 $𝑇_1, 𝑇_2, ⋯ , 𝑇_𝑚$ 次迭代将学习率衰减为原来的 $\beta_1,,\beta_2, ⋯ , \beta_𝑚$ 倍，其中 $𝑇_𝑚$ 和 $\beta_𝑚 < 1$ 为根据经验设置的超参数．分段常数衰减也称为阶梯衰减（Step Decay）．

逆时衰减（inverse time decay）

$\alpha_{t}=\alpha_{0} \frac{1}{1+\beta \times t}$
其中 $β$ 为衰减率。
指数衰减（exponential decay）
$\alpha_{t}=\alpha_{0} \beta^{t}$
其中 $β$ 为衰减率。

自然指数衰减（natural exponential decay）
$\alpha_{t}=\alpha_{0} \exp (-\beta \times t)$

其中 $β$ 为衰减率。

余弦衰减（Cosine Decay

$\alpha_{t}=\frac{1}{2} \alpha_{0}\left(1+\cos \left(\frac{t \pi}{T}\right)\right)$

其中 $T$ 为总的迭代次数．

图7.4给出了不同衰减方法的示例（假设初始学习率为1）。
在这里插入图片描述
图片来源[1]

除了这些固定衰减率的调整学习率方法外，还有些自适应地调整学习率的方法，比如AdaGrad、RMSprop、AdaDelta等。这些方法都对每个参数设置不同的学习率。

AdaGrad

在标准的梯度下降方法中，每个参数在每次迭代时都使用相同的学习率。考虑到每个参数的维度上收敛速度是不同的，AdaGrad对SGD进行改进，根据不同参数的收敛情况分别设置学习率。
在这里插入图片描述
图片来源[2]

AdaGrad（Adaptive Gradient）算法每次迭代时自适应地调整每个参数的学习率。在第 $t$ 迭代时，先计算每个参数梯度平方的累计值
$r_{t}=\sum_{\tau=1}^{t} \boldsymbol{g}_{\tau} \odot \boldsymbol{g}_{\tau}$
其中 $⊙$ 为按元素乘积， $\boldsymbol{g}_{\tau} \in \mathbb{R}^{|\theta|}$ 是第 $τ$ 次迭代时的梯度。

再利用得到的值对参数进行更新，AdaGrad算法的参数更新差值为：

$\Delta \theta_{t}=-\frac{\epsilon}{\delta+\sqrt{r_{t}}} \odot \boldsymbol{g}_{t}$

其中 $\epsilon$ 是初始的学习率， $\delta$ 是为了保持数值稳定性而设置的非常小的常数，一般取值 $e^{−7}$ 到 $e^{−10}$ 。此外，这里的开平方、除、加运算都是按元素进行的操作。

在Adagrad算法中，如果某个参数的偏导数累积比较大，其学习率相对较小；相反，如果其偏导数累积较小，其学习率相对较大。但整体是随着迭代次数的增加，学习率逐渐缩小。Adagrad算法的缺点是在经过一定次数的迭代依然没有找到最优点时，由于这时的学习率已经非常小，很难再继续找到最优点。

RMSprop

RMSprop 算法可以在有些情况下避免AdaGrad算法中学习率不断单调下降以至于过早衰减的缺点。

在这里插入图片描述
图片来源[2]

其累计平方梯度用指数加权移动平均值计算如下：

$\begin{aligned}r_{t} &=\rho r_{t-1}+(1-\rho) \boldsymbol{g}_{t} \odot \boldsymbol{g}_{t} \end{aligned}$
递推：
$r_{0} =0$
$r_{1} =\rho r_{0}+(1-\rho) \boldsymbol{g}_{1} \odot \boldsymbol{g}_{1}=(1-\rho) \boldsymbol{g}_{1} \odot \boldsymbol{g}_{1}$

$r_{2} =\rho r_{1}+(1-\rho) \boldsymbol{g}_{2} \odot \boldsymbol{g}_{2}$

$=\rho (1-\rho)\boldsymbol{g}_{1} \odot \boldsymbol{g}_{1}+(1-\rho) \boldsymbol{g}_{2} \odot \boldsymbol{g}_{2}$

$=(1-\rho) \sum_{\tau=1}^{2} \rho^{2-\tau} \boldsymbol{g}_{\tau} \odot \boldsymbol{g}_{\tau}$

$r_{3} =\rho r_{2}+(1-\rho) \boldsymbol{g}_{3} \odot \boldsymbol{g}_{3}$

$=\rho((1-\rho) \sum_{\tau=1}^{2} \rho^{2-\tau} \boldsymbol{g}_{\tau} \odot \boldsymbol{g}_{\tau})+(1-\rho) \boldsymbol{g}_{3} \odot\boldsymbol{g}_{3}$

$=(1-\rho) \sum_{\tau=1}^{3} \rho^{3-\tau} \boldsymbol{g}_{\tau} \odot\boldsymbol{g}_{\tau}$

$. . .$
$\begin{aligned}r_{t} &=\rho r_{t-1}+(1-\rho) \boldsymbol{g}_{t} \odot \boldsymbol{g}_{t} \\&=(1-\rho) \sum_{\tau=1}^{t} \rho^{t-\tau} \boldsymbol{g}_{\tau} \odot \boldsymbol{g}_{\tau}\end{aligned}$

其中 $\rho$ 为衰减率，一般取值为0.9。

RMSprop算法的参数更新差值为
$\Delta \theta_{t}=-\frac{\epsilon}{\sqrt{r_{t}+\delta}} \odot \boldsymbol{g}_{t}$
其中 $\epsilon$ 是初始的学习率，常设为0.001。

RMSProp算法和Adagrad算法的区别在于 $r_t$ 的计算由累积方式变成了指数加权移动平均值。AdaGrad 根据所有历史梯度对学习率进行衰减，这可能导致学习率在达到全局最优所在的凸结构前就变得太小了。RMSProp 使用指数加权移动平均值来削弱遥远过去的梯度的影响。（类似强化学习中的折扣因子）

AdaDelta

在这里插入图片描述
图片来源[2]

AdaDelta算法也是 Adagrad算法的一个改进。和RMSprop算法类似，AdaDelta算法通过梯度平方的指数加权移动平均值来调整学习率。
$\begin{aligned}r_{t} &=\rho r_{t-1}+(1-\rho) \mathbf{g}_{t} \odot \mathbf{g}_{t} \end{aligned}$
此外，AdaDelta算法还引入了每次参数更新差 $∆ θ$ 的平方的指数加权移动平均值：

$\Delta X_{t-1}^{2}=\rho \Delta X_{t-2}^{2}+\left(1-\rho\right) \Delta \theta_{t-1} \odot \Delta \theta_{t-1}$
其中 $\rho_1$ 为衰减率。此时 $θ_t$ 还未知，因此只能计算到 $X_{t−1}$ 。

AdaDelta算法的参数更新差值为
$\Delta \theta_{t}=-\frac{\sqrt{\Delta X_{t-1}^{2}+\delta}}{\sqrt{r_{t}+\delta}} \odot \boldsymbol{g}_{t}$

AdaDelta 算法在 RMSprop 算法的基础上将初始学习率 $\epsilon$ 改为动态计算的 $\sqrt{\Delta X_{t-1}^{2}}$ ，针对的问题是：Adagrad算法需要自己手动指定初始学习率，而且由于分母中对历史梯度一直累加，学习率将逐渐下降至0，并且如果初始梯度很大的话，会导致整个训练过程的学习率一直很小，从而导致学习时间变长。[4]

梯度估计修正

动量法

一般而言，一个物体的动量指的是这个物体在它运动方向上保持运动的趋势。动量法（Momentum Method）是用历史积累动量来替代真正的梯度。
在这里插入图片描述
图片来源[2]

在第 $t$ 次迭代时，计算负梯度的“加权移动平均”作为参数的更新方向：
$\boldsymbol{v}_t \leftarrow \alpha \boldsymbol{v}_{t-1}-\epsilon \boldsymbol{g}_t$

其中 $\alpha$ 为动量因子，通常设为0.9， $\epsilon$ 为学习率。

使用动量法时，每个参数的实际更新差值取决于最近一段时间内梯度的加权平均值。当某个参数在最近一段时间内的梯度方向不一致时，其真实的参数更新幅度变小；相反，当在最近一段时间内的梯度方向都一致时，其真实的参数更新幅度变大，起到加速作用。一般而言，在迭代初期，梯度方向都比较一致，动量法会起到加速作用，可以更快地到达最优点。在迭代后期，梯度方向会不一致，在收敛值附近振荡，动量法会起到减速作用，增加稳定性。

Nesterov 加速梯度

在这里插入图片描述
图片来源[2]

在动量法中，实际的参数更新方向 $\boldsymbol{v}_t$ 为上一步的参数更新方向 $\boldsymbol{v}_{t−1}$ 和当前负梯度 $−\boldsymbol{g}_t$ 的叠加。这样， $\boldsymbol{v}_t$ 可以被拆分为两步进行，先根据 $\boldsymbol{v}_{t−1}$ 更新一次得到参数 $\hat{\boldsymbol{θ}}$ ，再用 $\boldsymbol{g}$ 进行更新得到 $\boldsymbol{\theta}_{t}$ 。

$\hat{\boldsymbol{\theta}}=\boldsymbol{\theta}_{t-1}+\alpha \boldsymbol{v}_{t−1}$

$\boldsymbol{\theta}_{t}=\hat{\boldsymbol{\theta}}-\epsilon\boldsymbol{g}_t$

其中梯度 $\boldsymbol{g}_t$ 为点 $\boldsymbol{\theta}_{t−1}$ 上的梯度：

$\boldsymbol{g}_t \leftarrow \frac{1}{m} \nabla_{\boldsymbol{\theta}} \sum_{i} L\left(f\left(\boldsymbol{x}^{(i)} ; \boldsymbol{\theta}_{t-1}\right), \boldsymbol{y}^{(i)}\right)$

第二步更新有些不合理，更合理的更新方向应该为 $\hat{\boldsymbol{\theta}}$ 上的梯度。因此 Nesterov 加速梯度在动量法的基础上加入临时点，并计算临时点的梯度。
$\tilde{\boldsymbol{\theta}} \leftarrow \boldsymbol{\theta}_{t-1}+\alpha \boldsymbol{v}$

$\boldsymbol{g}_t \leftarrow \frac{1}{m} \nabla_{\tilde{\boldsymbol{\theta}}} \sum_{i} L\left(f\left(\boldsymbol{x}^{(i)} ; \tilde{\boldsymbol{\theta}}\right), \boldsymbol{y}^{(i)}\right)$

动量法与Nesterov加速梯度法区别如下：
在这里插入图片描述

集大成者

Adam

自适应动量估计（Adaptive Moment Estimation，Adam）算法。可以看作是动量法和 RMSprop 的结合，不但使用动量作为参数更新方向，而且可以自适应调整学习率。
在这里插入图片描述
图片来源[2]

Adam 算法一方面计算梯度平方 $\boldsymbol{g}^2_t$ 的指数加权平均（和 RMSprop 类似），另一方面计算梯度 $\boldsymbol{g}_t$ 的指数加权平均（和动量法类似）。
$\boldsymbol{s}_{t}=\rho_{1} \boldsymbol{s}_{t-1}+\left(1-\rho_{1}\right) \boldsymbol{g}_{t}$

$\boldsymbol{r}_{t}=\rho_{2} \boldsymbol{r}_{t-1}+\left(1-\rho_{2}\right) \boldsymbol{g}_{t} \odot \boldsymbol{g}_{t}$

其中 $\rho_1$ 和 $\rho_2$ 分别为两个移动平均的衰减率，通常取值为 $\rho_1 = 0.9, \rho_2 = 0.99$ 。

$\boldsymbol{s}_t$ 可以看作是梯度的一阶矩， $\boldsymbol{r}_t$ 可以看作是梯度的二阶矩。

假设 $\boldsymbol{s}_0 = 0, \boldsymbol{r}_0 = 0$ ，那么在迭代初期 $\boldsymbol{s}_t$ 和 $\boldsymbol{r}_t$ 的值会比真实的值要小。特别是当 $\rho_1$ 和 $\rho_2$ 都接近于1时，偏差会很大。因此，需要对偏差进行修正。
$\hat{\boldsymbol{s}}_{t}=\frac{\boldsymbol{s}_{t}}{1-\rho_{1}^{t}}$

$\hat{\boldsymbol{r}}_{t}=\frac{\boldsymbol{r}_{t}}{1-\rho_{2}^{t}}$

Adam算法的参数更新差值为
$\Delta \theta_{t}=-\epsilon\frac{\hat{\boldsymbol{s}}_{t}}{\sqrt{\hat{\boldsymbol{r}}_{t}}+\delta}$

其中学习率α通常设为0.001。

参考：
[1]《神经网络与深度学习》作者：邱锡鹏
[2]《深度学习》 https://github.com/exacity/deeplearningbook-chinese
[3]Deep Learning ，作者：Ian Goodfellow，Yoshua Bengio，Aaron Courville
[4] https://blog.csdn.net/XiangJiaoJun_/article/details/83960136