神经网络基础3：优化方法

最新推荐文章于 2022-07-03 11:08:15 发布

yeqiustu

最新推荐文章于 2022-07-03 11:08:15 发布

阅读量271

点赞数

分类专栏：神经网络基础文章标签： AdaGrad RMSProp AdaDelta Adam Nadam

本文链接：https://blog.csdn.net/yeqiustu/article/details/106925718

版权

本篇主要讲神经网络的常见优化方法。

目前，出现了很多优化方法，如SGD、AdaGrad、RMSProp、AdaDelta、Momentum、Nesterov-Momentum (Nesterov’s accelerated gradient--NAG)、Adam、AdaMax、Nadam，接下来对它们分别进行讲解：

最初始的梯度下降法

$\left\{ \begin{matrix} g_t = \bigtriangledown _{\theta^{t-1}}{f(\theta^{t-1})} \\ \theta^t = \theta^{t-1} - \eta g_t \end{matrix}\right.$

SGD优化的缺点：

选择合适的learning rate比较困难；==》可以通过自适应学习率的方法克服
SGD对所有的参数更新使用了同样的learning rate。对于稀疏数据或者特征，有时我们可能想更新快一些对于不经常出现的特征，对于常出现的特征更新慢一些，这时候SGD就不太能满足要求了；==》可以通过自适应学习率的方法克服
SGD容易收敛到局部最优，并且在某些情况下可能被困在鞍点（在合适的初始化和step size的情况下，鞍点的影响并没这么大）。==》可以通过动量法帮助跳出局部最优

由于SGD的这些缺点，后续出现了一些优化方法，这些优化方法基本都是沿着下面路线对SGD进行改进：

其主要思想：对更新的较少的参数要更新快一些，对于更新了很多的参数要更新慢一些；

通过不断累加每次训练中梯度的平方来判断参数更新的多少，从而调节相应的学习率，具体如下：

$\left\{ \begin{matrix} v^t = v^{t-1} + g_t^2 \\ \theta^t = \theta^{t-1} - \frac{\eta}{\epsilon + \sqrt{v^t}}g_t \end{matrix}\right.$

从公式中可以看出，随着算法不断迭代， v^t 会越来越大，整体的学习率会越来越小。所以，一般来说AdaGrad算法一开始是放大梯度、激励收敛，到了后面就慢慢变成减小梯度、惩罚收敛，速度越来越慢，可能会使得训练提前结束；通常比较适合处理稀疏数据。

RMSProp是AdaGrad的改进算法，与AdaGrad不同，RMSProp只会累积近期的梯度信息，对于“遥远的历史”会以指数衰减的形式放弃，因为当参数空间非凸时，算法梯度下降的轨迹所经历的结构会复杂的多，早期梯度对当前训练没有太多意义；具体来说是用指数加权移动平均来代替粗暴的累加，公式如下：

$\left\{ \begin{matrix} v^t = \beta v^{t-1} + (1-\beta) g_t^2 \\ \theta^t = \theta^{t-1} - \frac{\eta}{\epsilon + \sqrt{v^t}}g_t \end{matrix}\right.$

从公式可以看出，RMSProp避免了学习速度越来越慢、甚至提前结束的困境；通常比较适合处理非平稳目标 - 对于RNN效果很好

AdaDelta是与RMSProp相同时间对立发展出来的一个算法，在实现上可以看作是RMSProp的一个变种；其主要思路是近似二阶牛顿法，即

关注

专栏目录