优化方法浅析

最新推荐文章于 2023-08-17 15:08:35 发布

Neways谭

最新推荐文章于 2023-08-17 15:08:35 发布

阅读量326

点赞数

分类专栏：神经网络基础 NLP 文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_46195663/article/details/110537272

版权

NLP 同时被 2 个专栏收录

14 篇文章 0 订阅

订阅专栏

神经网络基础

3 篇文章 1 订阅

订阅专栏

优化算法

SGD
动量法
AdaGrad
RMSProp
Adam
Nadam
AdamW
LAMB

思路参考一个框架看懂优化算法之异同 SGD/AdaGrad/Adam

SGD

随机梯度下降方法
$g_t = \nabla f(w_t)$
$w_{t+1} = w_t - \alpha g_t$

动量法

为了解决梯度下降收敛过慢的问题，因为存在病态曲率。

梯度下降沿着山沟的山脊反弹，向极小的方向移动较慢。这是因为脊的表面在W1方向上弯曲得更陡峭。

具体介绍病态曲率
在这里插入图片描述
动量法可以解决病态曲率的问题，动量法是指利用历史的梯度信息来平滑求和获得新的梯度，避免梯度走偏。
$m_t = \beta m_{t-1} + (1-\beta)g_t$
$w_{t+1} = w_t - \alpha m_t$
这里的 $\beta$ 是动量参数。
如下图所示，利用动量分解，在错误方向上的历史动量会相互抵消，最终推动梯度向正确方向迭代。
在这里插入图片描述

AdaGrad

自适应学习率，面对神经网络众多参数，特别是embedding,我们希望对于经常更新的参数，学习率慢一点，不会被一个异常数据带跑偏，对于罕更新参数，学习率可快一点，加速更新。所以需要历史梯度的二阶动量作为更新梯度的权重。
$V_t = \sum_j^t g_j^2$
所以，梯度更新为：
$w_{t+1} = w_t - \alpha \frac{g_t}{V_t}$
为了避免分母为0，会加平滑项，而且参数更新越频繁，二阶动量越大，学习率就越小

RMSProp

AdaGrad衰减速度太快，改进方法是利用指数平滑来改进二阶动量
$V_t = \beta V_{t-1} + (1-\beta) \sum_j^t g_j^2$
$w_{t+1} = w_t - \alpha \frac{g_t}{V_t}$
再切回到上面病态曲率的例子，实际上 $w_1$ 方向就是错误方向，也是高频方向，而正确方向 $w_2$ 是低频方向，所以RMSProp会降低错误方向迭代速度。
综上，动量法会提升正确方向迭代步长，而RMSProp（二阶动量法）会降低错误方向的步长。

Adam

Adam = Momentum + RMSProp
$m_t = \beta m_{t-1} + (1-\beta)g_t$
$V_t = \beta V_{t-1} + (1-\beta) \sum_j^t g_j^2$
$w_{t+1} = w_t - \alpha \frac{m_t}{V_t}$

Nadam

即Nesterov adam
Nesterov方法是为了解决优化陷入局部最优，于是将梯度计算时提前想一步，直接计算在预先设计算法下下一步的梯度，这样有可能会跳出局部最优的情况
$g_t = \nabla f(w_t - \alpha \frac{m_t}{V_t})$
$m_t = \beta m_{t-1} + (1-\beta)g_t$
$V_t = \beta V_{t-1} + (1-\beta) \sum_j^t g_j^2$
$w_{t+1} = w_t - \alpha \frac{m_t}{V_t}$

AdamW

引入自身参数解决参数过拟合
$m_t = \beta m_{t-1} + (1-\beta)g_t$
$V_t = \beta V_{t-1} + (1-\beta) \sum_j^t g_j^2$
$w_{t+1} = w_t - \alpha(\frac{m_t}{V_t} + \lambda w_t)$

LAMB

Layer-wise Adaptive Moments optimizer for Batching training
提升训练速度的方法是提升batch size，但是batch size有隐形上限。

一旦突破这个上限，梯度更新极端的取值会导致自适应学习率调整后极为困难的收敛。

$m_t = \beta m_{t-1} + (1-\beta)g_t$
$V_t = \beta V_{t-1} + (1-\beta) \sum_j^t g_j^2$
$r_t = \frac{m_t}{V_t}$
$w_{t+1} = w_t - \alpha *\frac{ \phi(||w_t||)}{||r_t+\lambda w_t||}(r_t+\lambda w_t)$

这里的 $\phi$ 是可选择的映射函数。用来保证梯度和参数原来的值在同一个量级
LAMB只有在batch size>512才有效果。

Neways谭

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
优化方法浅析

优化算法SGD动量法AdaGradRMSPropAdamNadam思路参考一个框架看懂优化算法之异同 SGD/AdaGrad/AdamSGD随机梯度下降方法gt=∇f(wt)g_t = \nabla f(w_t)gt=∇f(wt)wt+1=wt−αgtw_{t+1} = w_t - \alpha g_twt+1=wt−αgt动量法为了解决梯度下降收敛过慢的问题，因为存在病态曲率。梯度下降沿着山沟的山脊反弹，向极小的方向移动较慢。这是因为脊的表面在W1方向上弯曲得更陡峭。具体介
复制链接

扫一扫

专栏目录