深度学习优化器Optimizer公式简记

最新推荐文章于 2023-09-21 21:38:47 发布

pyxiea

最新推荐文章于 2023-09-21 21:38:47 发布

阅读量1.3k

点赞数 1

分类专栏： Interview Deep Learning 文章标签：优化器 adam rmsprop sgd momentum

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xpy870663266/article/details/104794371

版权

Interview 同时被 2 个专栏收录

13 篇文章 0 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

推荐学习资料：

[1] 从 SGD 到 Adam —— 深度学习优化算法概览(一)
[2] 深度学习——优化器算法Optimizer详解
[3] 一个框架看懂优化算法之异同 SGD/AdaGrad/Adam
[4] 什么是指数加权平均、偏差修正？

这里仅记录公式，方便对比记忆，而不解释由来，其他细节可以看上面说的资料。

设：

参数向量为 $\theta$
学习率为 $\eta$
用于数值稳定的接近0的常数 $\epsilon$
用于计算指数平均的接近1的常数 $\gamma$ 、 $\beta_1$ 、 $\beta_2$
在 $t$ 时刻损失函数对 $\theta$ 的梯度 $g_t=\nabla_\theta J(\theta)$
在 $t$ 时刻的一阶动量 $m_t$ ，根据 $\{g_1,g_2,\cdots,g_t\}$ 算出
在 $t$ 时刻的二阶动量 $v_t$ ，根据 $\{g_1^2,g_2^2,\cdots,g_t^2\}$ 算出，其中 $g_t^2=g_t \odot g_t$

梯度更新公式为：

$\theta_{t+1}=\theta_t-G_t \tag1$

各优化算法对 $G_t$ 的计算不同。

对于 SGD，

$G_t=\eta g_t \tag2$

对于 SGD with Momentum，

$G_t=\gamma G_{t-1}+\eta g_t \tag3$

对于 Adagrad，

$v_t=\sum_{i=1}^{t}g_i^2 \tag4$

$G_t=\frac{\eta}{\sqrt{v_t+\epsilon}}g_t \tag5$

对于 RMSprop，
$v_t=\gamma v_{t-1}+(1-\gamma)g_t^2 \tag6$

$G_t=\frac{\eta}{\sqrt{v_t+\epsilon}}g_t \tag7$

对于 Adam，

$m_t=\beta_1m_{t-1}+(1-\beta_1)g_t \tag8$

$v_t=\beta_2v_{t-1}+(1-\beta_2)g_t^2 \tag9$

$\hat m_t=\frac{m_t}{1-\beta_1^t} \tag{10}$

$\hat v_t=\frac{v_t}{1-\beta_2^t} \tag{11}$

$G_t=\frac{\eta}{\sqrt{\hat v_t+\epsilon}}\hat m_t \tag{12}$

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
深度学习优化器Optimizer公式简记

推荐学习资料：[1] 从 SGD 到 Adam —— 深度学习优化算法概览(一)[2] 深度学习——优化器算法Optimizer详解[3] 一个框架看懂优化算法之异同 SGD/AdaGrad/Adam这里仅记录公式，方便对比记忆，而不解释由来，其他细节可以看上面说的资料。设：参数向量为 θ\thetaθ学习率为 η\etaη用于数值稳定的接近0的常数 ϵ\epsilonϵ用于计...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。