神经网络基础3:优化方法

本篇主要讲神经网络的常见优化方法。

目前,出现了很多优化方法,如SGD、AdaGrad、RMSProp、AdaDelta、Momentum、Nesterov-Momentum (Nesterov’s accelerated gradient--NAG)、Adam、AdaMax、Nadam,接下来对它们分别进行讲解:

SGD

最初始的梯度下降法

\left\{ \begin{matrix} g_t = \bigtriangledown _{\theta^{t-1}}{f(\theta^{t-1})} \\ \theta^t = \theta^{t-1} - \eta g_t \end{matrix}\right.

SGD优化的缺点:

  • 选择合适的learning rate比较困难;==》可以通过自适应学习率的方法克服
  • SGD对所有的参数更新使用了同样的learning rate。对于稀疏数据或者特征,有时我们可能想更新快一些对于不经常出现的特征,对于常出现的特征更新慢一些,这时候SGD就不太能满足要求了;==》可以通过自适应学习率的方法克服
  • SGD容易收敛到局部最优,并且在某些情况下可能被困在鞍点(在合适的初始化和step size的情况下,鞍点的影响并没这么大)。==》可以通过动量法帮助跳出局部最优

由于SGD的这些缺点,后续出现了一些优化方法,这些优化方法基本都是沿着下面路线对SGD进行改进:

  • 路线1:非全局随迭代变化的自适应学习率,AdaGrad --> RMSProp --> AdaDelta
  • 路线2:当前迭代的梯度包含历史的梯度,即带动量,Moment --> Nesterov-Moment
  • 路线3:路线1和路线2的结合,Adam --> AdaMax,Adam --> Nadam

AdaGrad

其主要思想:对更新的较少的参数要更新快一些,对于更新了很多的参数要更新慢一些

通过不断累加每次训练中梯度的平方来判断参数更新的多少,从而调节相应的学习率,具体如下:

\left\{ \begin{matrix} v^t = v^{t-1} + g_t^2 \\ \theta^t = \theta^{t-1} - \frac{\eta}{\epsilon + \sqrt{v^t}}g_t \end{matrix}\right.

从公式中可以看出,随着算法不断迭代,v^t 会越来越大,整体的学习率会越来越小。所以,一般来说AdaGrad算法一开始是放大梯度、激励收敛,到了后面就慢慢变成减小梯度、惩罚收敛,速度越来越慢,可能会使得训练提前结束;通常比较适合处理稀疏数据。

RMSProp

RMSProp是AdaGrad的改进算法,与AdaGrad不同,RMSProp只会累积近期的梯度信息,对于“遥远的历史”会以指数衰减的形式放弃,因为当参数空间非凸时,算法梯度下降的轨迹所经历的结构会复杂的多,早期梯度对当前训练没有太多意义;具体来说是用指数加权移动平均来代替粗暴的累加,公式如下:

\left\{ \begin{matrix} v^t = \beta v^{t-1} + (1-\beta) g_t^2 \\ \theta^t = \theta^{t-1} - \frac{\eta}{\epsilon + \sqrt{v^t}}g_t \end{matrix}\right.

从公式可以看出,RMSProp避免了学习速度越来越慢、甚至提前结束的困境;通常比较适合处理非平稳目标 - 对于RNN效果很好

AdaDelta

AdaDelta是与RMSProp相同时间对立发展出来的一个算法,在实现上可以看作是RMSProp的一个变种;其主要思路是近似二阶牛顿法,即

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值