常见的梯度优化算法（SGD、动量、Adagrad、RMSProp、Adam）的总结

最新推荐文章于 2024-07-31 14:47:45 发布

YLTENG

最新推荐文章于 2024-07-31 14:47:45 发布

阅读量3.4k

点赞数 2

文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_44957722/article/details/119180040

版权

本文总结了深度学习中常用的梯度优化算法，包括SGD、动量法、Adagrad、RMSProp和Adam。通过公式解析，阐述了每种算法的工作原理和特点，如SGD的简单更新、动量法的加速收敛、Adagrad的自适应学习率、RMSProp的改进以及Adam的结合优势。

摘要由CSDN通过智能技术生成

常见的梯度优化算法（SGD、动量、Adagrad、RMSProp、Adam）的总结

SGD
动量
Adagrad
RMSProp
Adam

SGD

随机梯度下降算法（Stochastic gradient descent，SGD）在神经网络模型训练中，是一种很常见的优化算法。这种算法是基于梯度下降算法产生的，所以要理解随机梯度下降算法，必须要对梯度下降算法有一个全面的理解。
先来看一下公式
$\theta_{t+1} = \theta_{t} - \eta g_t$
这里面 $g_t$ 表示的是我们通过求导求出来的梯度值， $\theta_{t+1}$ 表示的是更新后的参数， $\theta_t$ 表示的是更新前的参数。可以看到如果使用SGD算法，他只是单纯的对于求出来的梯度乘上一个系数然后进行下降。

动量

动量法是传统梯度下降法(SGD)的一种扩展，它比SGD更高效。动量法又被称作基于动量的梯度下降法(SGD with momentum)，是一种使梯度向量向相关方向加速变化、最终实现加速收敛的方法。动量法是一种非常受欢迎的优化算法，并被用于当下的很多模型中。
看一下公式：
$V_t = \gamma V_{t-1} + \eta g_t$
$\theta_{t+1} = \theta_t - V_t$
通过第二个式子和SGD的对比，我们可以发现，SGD里面的 $\eta g_t$ 被换成了