Optimizer(优化器) -- SGD、Momentum、Adam等介绍

最新推荐文章于 2024-08-24 09:48:55 发布

无敌君君君

最新推荐文章于 2024-08-24 09:48:55 发布

阅读量2.1k

点赞数 1

文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/weixin_45760718/article/details/132718380

版权

本文详细介绍了传统梯度优化算法（如SGD）及其不足，重点分析了Momentum、AdaGrad、RMSProp和Adam等优化器的工作原理和优势，强调了它们在调整学习率、防止震荡和适应不同场景中的应用。

摘要由CSDN通过智能技术生成

在学习RL代码过程中，对优化器的概念与作用一直不是很清晰，因此重新学习记录一下

1、传统梯度优化（SGD等）

传统梯度优化在此指BGD、SGD、MBGD，分别为批量梯度下降算法、随机梯度下降算法、小批量梯度下降算法。BGD在训练的时候选用所有的训练集进行计算，SGD在训练的时候只选择一个数据进行训练，而MBGD在训练的时候只选择小部分数据进行训练。这三个优化算法在训练的时候虽然所采用的的数据量不同，但是他们在进行参数优化的时候是相同的。

在训练的时候一般都是使用小批量梯度下降算法，即选择部分数据进行训练，在此把这三种算法统称为传统梯度更新算法，因为他们在更新参数的时候采用相同的方式，而更优的优化算法从梯度方向和学习率方面对参数更新方式进行优化。

传统梯度更新算法为最常见、最简单的一种参数更新策略。其基本思想是：先设定一个学习率 $\lambda$ ，参数沿梯度的反方向流动。假设需要更新的参数为 $\theta$ ，梯度为 $g$ ，则其更新策略可表示为：
$\theta \leftarrow \theta - \lambda g$
这种梯度更新算法简洁，当学习率取值恰当时，可以收敛到全面最优点(凸函数)或局部最优点(非凸函数)。但其还有很大的不足点：

对超参数学习率比较敏感（过小导致收敛速度过慢，需要迭代多次，要求计算资源多；过大又会跳变，跳过极值点）。
学习率除了敏感，有时还会因其在迭代过程中保持不变，很容易造成算法被卡在鞍点。
在较平坦的区域，由于梯度接近于0，优化算法会因误判，在还未到达极值点时，就提前结束迭代，陷入局部极小值。

2、Momentum

与梯度下降不同的是在计算梯度地方，当前时刻的梯度是从开始时刻到当前时刻的梯度指数加权平均，并给这个梯度的指数加权值取了个名字速率 $v$ , 既有方向也有大小，即让梯度保留之前的一部分速度和方向。动量算法每下降一步都是由前面下降方向的一个累积和当前点梯度方向组合而成。含动量的随机梯度下降算法，其更新方式如下:

$v \leftarrow \beta v + (1-\beta)g$

$\theta \leftarrow \theta - \lambda v$

既然每一步都要将两个梯度方向（历史梯度、当前梯度）做一个合并再下降，因此可以按照前面一小步位置的“超前梯度”来做梯度合并。这样就可以先往前走一小步，在靠前一点的位置看到梯度，然后按照那个位置再来修正这一步的梯度方向。这样就得到动量算法的一种改进算法，称为Nesterov Accelerated Gradient，简称NAG算法。这种更新的算法能够防止大幅振荡，不会错过最小值，并会对参数更加敏感。

3、AdaGrad

AdaGrad算法是通过参数来调整合适的学习率，是能独立自动调整模型参数的学习率，对稀疏参数进行大幅更新和对频繁参数进行小幅更新，因此，AdaGrad方法非常适合处理稀疏数据。AdaGrad算法在某些深度学习模型上效果不错。但还是有些不足，可能是因其累积梯度平方导致学习率过早或过量的减少所致。以下是AdaGrad算法的更新步骤：

$r \leftarrow r + g * g$