深度学习优化算法

最新推荐文章于 2023-05-24 21:46:00 发布

隐藏玩家

最新推荐文章于 2023-05-24 21:46:00 发布

阅读量130

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/weixin_43843978/article/details/101449954

版权

深度学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

前言

个人对于深度学习的优化一直是未知，所以对此一直充满了疑问，今天休闲读的时候刚好看到书上有关于优化算法的汇总，为方便今后查阅将它copy下来。

SGD(随机梯度下降算法)

参数：学习率 $\eta$
初始化： $\theta$
while 停止条件未满足 do:
从训练数据中抽取m条数据 ${x^{(1)}, x^{(2)}, x^{(3)}, ... , x^{(m)}\}$ 及对应的标签 ${y^{(1)}, y^{(2)}, y^{(3)}, ... , y^{(m)}\}$
计算梯度： $g(\theta) = \frac{\partial \frac{1}{m} \sum_{i=1}^mL(f(x^{(i)}, y^{(i)}))}{\partial \theta}$
跟新参数： $\theta = \theta - \eta . g(\theta)$
end while

Momentum

动量(Momentum) 是来自中学物理中力学中的概念，是力的时间积累效应的度量。动量的方法在随机梯度下降的基础上，加上了上一步的梯度：
$m_t = \gamma m_{t-1}+g(\theta)$
$\theta = \theta - \eta m_t$
相比随机梯度下降，动量对使相同的梯度不断累加，而不同方向的梯度则相互抵消，因而可以在一定程度上克服Z字形的震荡，更快的到达最优点。
带动量的随机梯度下降算法。
参数：学习率 $\eta$ , 动量 $\mu$
初始化： $\theta$
while 停止条件未满足 do:
从训练数据中抽取m条数据 ${x^{(1)}, x^{(2)}, x^{(3)}, ... , x^{(m)}\}$ 及对应的标签 ${y^{(1)}, y^{(2)}, y^{(3)}, ... , y^{(m)}\}$ 。
计算梯度： $g(\theta) = \frac{\partial \frac{1}{m} \sum_{i=1}^mL(f(x^{(i)}, y^{(i)}))}{\partial \theta}$
更新参数：
（1） $m_t =\gamma m_{t-1}+g(\theta)$
（2） $\theta_{t+1} = \theta_t - \eta m_t$

NAG

NAG 加速梯度(Nester Accelerated Gradient, NAG) 与动量；类似，也是考虑最近的梯度情况但是NAG相对超前一点，他先使用动量 $m_t$ 计算参数 $\theta$ 的下一个位置，然后在近似计算梯度：
$m_t = \gamma m_{t-1} + g(\theta_t - \eta \gamma m_{t-1})$
$\theta_{t+1} = \theta_t - \eta m_t$
算法如下：
参数：学习率 $\eta$ , 动量衰减率 $\gamma$ .
初始化： $\theta$
while 停止条件未满足 do:
从训练数据中抽取m条数据 ${x^{(1)}, x^{(2)}, x^{(3)}, \}$ 及对应的标签 ${y^{(1)}, y^{(2)}, y^{(3)}, ..., y^{(m)}}$
计算梯度： $g(\theta) = \frac{\partial \frac{1}{m} \sum_{i=1}^mL(f(x^{(i)}, y^{(i)}))}{\partial \theta}$
更新梯度积累量： $G_t = \gamma G_{t-1}+(1-\gamma)g^2(\theta)$
更新参数： $\theta_{t+1} = \theta_{t}- \frac{\eta}{\sqrt{G_t+\epsilon}}\bigodot g(\theta)$

Adadelta

Adadelta算法
参数：学习率 $\eta$ , 微小量 $\epsilon$ ，梯度累计量G，衰减率 $\gamma$ .
初始化： $\theta$
while 停止条件未满足 do:
从训练数据中抽取m条数据 ${x^{(1)}, x^{(2)}, ....., x^{(m)}}$ 及对应的标签
计算梯度: $g(\theta) = \frac{\partial \frac{1}{m} \sum_{i=1}^mL(f(x^{(i)}, y^{(i)}))}{\partial \theta}$
更新梯度积累量： $G_t = \gamma G_{t-1}+(1-\gamma)g^2(\theta)$
计算参数相关积累量： $\Delta_t = \gamma \Delta_{t-1}+(1-\gamma)\Delta \theta_t^2$
更新参数： $\theta_{t+1} = \theta_t + \Delta \theta$
end while

Adam

短发全称为 Adaptive Moment Estimation ，这种方法结合了上面提到的两类算法：基于梯度和基于自适应学习率的算法。基于动量的算法有动量法和NAG法，这两种方法都基于历史的梯度信息进行参数跟新，基于自适应的算法有Adagrad, RM-SProp, Adadelta，他们通过计算梯度的积累量来调整不同的参数的更新量，Adam算法记录了梯度的一阶矩（梯度的期望值），和二阶矩（梯度平方的期望值）。
参数：学习率 $\eta$ , 微小量，一阶矩 $\hat{m_t}$ 二阶矩 $\hat{v_t}$ ，衰减率 $\beta_1, \beta_2$
初始化： $\theta$
while 停止条件未满足 do:
从训练数据中抽取m条数据 ${x^{(1)}, x^{(2)}, x^{(m)}\}$ 及对应的标签 ${y^{(1)}, y^{(2)}, y^{(m)}\}$ 。
计算梯度: $g(\theta) = \frac{\partial (\frac{1}{m} \sum_{i=1}^m)L(f(x^{(i)}, y^{(i)}))}{\partial \theta}$
更新一阶矩： $m_t = \beta_1m_{t-1}+(1-\beta_1)g(\theta)$
更新二阶矩： $v_t = \beta_2v_{t-1}+(1-\beta_2)g^2(\theta)$
纠正一阶矩： $\hat{m_t} = \frac{m_t}{1-\beta_1^t}$
纠正二阶矩: $\hat{v_t} = \frac{v_t}{1-\beta_2^t}$
计算参数更新量： $\Delta \theta = - \frac{\eta}{\sqrt{\hat{v_t}}+\epsilon} \bigodot \hat{m_t}$
更新参数： $\theta_{t+1} = \theta_t +\Delta \theta$
end while

AdaMax

AdaMax 算法主要对Adam算法进行了修改，将二阶矩修改为无穷矩，这样数值上更加稳定：
AdaMax 算法：
参数：学习率 $\eta$ , 微小量 $\epsilon$ ,一介矩 $\hat{m_t}$ , 二阶矩 $\hat{v_t}$ ,衰减率 $\beta_1$ , $\beta_2$
初始化： $\theta$
while 停止条件未满足 do:
从训练数据中抽取m条数据 ${x^{(1)}, x^{(2)}, x^{(m)}\}$ 及对应的标签 ${y^{(1)}, y^{(2)}, y^{(m)}\}$ 。
计算梯度: $g(\theta) = \frac{\partial (\frac{1}{m} \sum_{i=1}^m)L(f(x^{(i)}, y^{(i)}))}{\partial \theta}$
更新一阶矩： $m_t = \beta_1m_{t-1}+(1-\beta_1)g(\theta)$
更新二阶矩： $u_t = \max(\beta_2u_{t-1}+|g(\theta)|)$
纠正一阶矩： $\hat{m_t} = \frac{m_t}{1-\beta_1^t}$
计算参数更新量： $\Delta \theta = - \frac{\eta}{\sqrt{\hat{u_t}}+\epsilon} \bigodot \hat{m_t}$
更新参数： $\theta_{t+1} = \theta_t +\Delta \theta$
end while

Nadam

6.8节的AdaMax算法修改了二阶矩的估计值，本节的算法则修改了一阶距的估计值，将Nesterov算法和Adam算法结合起来，形成了Nadam(Nesterov-accelerated Adaptive Moment Estimation)算法。

参数：学习率 $\eta$ , 微小量 $\epsilon$ ,一介矩 $\hat{m_t}$ , 二阶矩 $\hat{v_t}$ ,衰减率 $\beta_1$ , $\beta_2$
初始化： $\theta$
while 停止条件未满足 do:
从训练数据中抽取m条数据 ${x^{(1)}, x^{(2)}, x^{(m)}\}$ 及对应的标签 ${y^{(1)}, y^{(2)}, y^{(m)}\}$ 。
计算梯度: $g(\theta) = \frac{\partial (\frac{1}{m} \sum_{i=1}^m)L(f(x^{(i)}, y^{(i)}))}{\partial \theta}$
更新一阶矩： $m_t = \beta_1m_{t-1}+(1-\beta_1)g(\theta)$
更新一阶矩的Nesterov加速值： $m_t = \beta m_t+(1-\beta_1)g_1$
更新二阶矩： $v_t = \beta_2v_{t-1}+(1-\beta_2)g^2(\theta)$
纠正一阶矩： $\hat{m_t} = \frac{m_t}{1-\beta_1^t}$
纠正二阶矩： $\hat{v_t} = \frac{v_t}{1-\beta_2^t}$
计算参数更新量： $\Delta \theta = - \frac{\eta}{\sqrt{\hat{u_t}}+\epsilon} \bigodot \hat{m_t}$
更新参数： $\theta_{t+1} = \theta_t +\Delta \theta$
end while

优化算法的实用

在随机梯度的基础上，上述算法中分别提出了，基于动量的优化，基于自适应的算法。
以动量为核心的算法更容易在山谷型的优化曲面中找到最优解，如果最优曲面在某个地方震荡严重，而在另外一些地方方向趋势明显，那么基于动量的算法能够把握这种趋势，让有趋势的方向基类能量，同时让震荡的方向相互抵消。趋势不明显的话，那么这些积累的能量会继续释放，那么优化的参数的优化路径必然会绕一些弯路。
以自适应为核心的算法容易在各种场景下找到平衡，对于梯度较大的一些场景，他会适当的减少更新量，而对于梯度较小的一些场景，他会适当增加更新量，所以是对优化的做了一定的折中，所以这个优化算法肯定是耗时的，该类算法虽然很有秀，但是很多论文依然会使用经典的梯度下降法。

隐藏玩家

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深度学习优化算法

前言个人对于深度学习的优化一直是未知，所以对此一直充满了疑问，今天休闲读的时候刚好看到书上有关于优化算法的汇总，为方便今后查阅将它copy下来。SGD(随机梯度下降算法)参数：学习率 η\etaη初始化： θ\thetaθwhile 停止条件未满足 do:从训练数据中抽取m条数据{x(1),x(2),x(3),...,x(m)}\{x^{(1)}, x^{(2)}, x^{(3)...
复制链接

扫一扫

专栏目录