TensorFlow学习笔记之Optimizers

最新推荐文章于 2023-10-23 09:00:59 发布

盲人骑瞎马5555

最新推荐文章于 2023-10-23 09:00:59 发布

阅读量179

点赞数

分类专栏：实习文章标签： optimizer

本文链接：https://blog.csdn.net/wxw060709/article/details/84299320

版权

实习专栏收录该内容

16 篇文章 1 订阅

订阅专栏

ADAM: a method for stochastic optimization
Adam（Adaptive Moment Estimation）本质上是带有动量项的RMSprop，它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。
Adam的优点主要在于经过偏置矫正后，每一次迭代学习率都有个确定范围，使得参数比较平稳。

$m_t=\mu*m_{t-1}+(1-\mu)*g_t$

$n_t=\nu*n_{t-1}+(1-\nu)*g_t^2$

$\hat{m_t}=\frac{m_t}{1-\mu^t}$

$\hat{n_t}=\frac{n_t}{1-\nu^t}$

$\Delta{\theta_t}=-\frac{\hat{m_t}}{\sqrt{\hat{n_t}}+\epsilon}*\eta$

其中， $m_t$ ， $n_t$ 分别是对梯度的一阶矩估计和二阶矩估计，可以看作对期望 $E|g_t|$ ， $E|g_t^2|$ 的估计； $\hat{m_t}$ ， $\hat{n_t}$ 是对 $m_t$ ， $n_t$ 的校正，这样可以近似为对期望的无偏估计。可以看出，直接对梯度的矩估计对内存没有额外的要求，而且可以根据梯度进行动态调整，而 $-\frac{\hat{m_t}}{\sqrt{\hat{n_t}}+\epsilon}$ 对学习率形成一个动态约束，而且有明确的范围。

特点：

结合了Adagrad善于处理稀疏梯度和RMSprop善于处理非平稳目标的优点
对内存需求较小
为不同的参数计算不同的自适应学习率
也适用于大多非凸优化-适用于大数据集和高维空间

盲人骑瞎马5555

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
TensorFlow学习笔记之Optimizers

ADAM: a method for stochastic optimization Adam（Adaptive Moment Estimation）本质上是带有动量项的RMSprop，它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。 Adam的优点主要在于经过偏置矫正后，每一次迭代学习率都有个确定范围，使得参数比较平稳。其中，，分别是对梯度的一阶矩估计和二阶矩估计，可以看作...
复制链接

扫一扫