神经网络梯度下降算法综述

最新推荐文章于 2024-08-24 10:56:49 发布

yj_isee

最新推荐文章于 2024-08-24 10:56:49 发布

阅读量2.4k

点赞数 1

分类专栏： Computer Vision

本文链接：https://blog.csdn.net/yaoqi_isee/article/details/68954861

版权

本文详细概述了神经网络中常见的梯度下降优化算法，包括Momentum、Nesterov Accelerated Gradient (NAG)、Adagrad、Adadelta、RMSprop和Adam。针对挑战如学习率选择、局部最优等问题，这些算法提供了不同的解决方案，例如Adagrad通过自适应学习率处理不常更新的参数，而Adam结合了动量和二阶矩估计。各种算法的可视化对比显示了它们在损失函数表面和鞍点问题上的性能差异。

摘要由CSDN通过智能技术生成

本文主要参考（大部分翻译）自论文《An Overview of Gradient Descent Optimization Algorithm》

3.Challenge

通常来说，mini-batch gradient descent算法在应用的时候，会有以下一些问题需要考虑：
1. 如何选择一个合适的学习率
2. 如何在训练的时候调整学习率
3. 所有的参数能不能不要都用相同的学习率更新
4. 如何逃避局部最优以及鞍点

4. Gradient descent optimization algorithms

下面介绍几种神经网络中常用的梯度下降方法，来解决之前第三节提到的challenge.对于那些不适用于神经网络的的方法，比如一些二阶优化的方法（牛顿法），这里就不做介绍了。

4.1. Momentum[1]

SGD在经过峡谷(navigating ravines)时候会碰到问题。这里ravine的意思是说，画出object function的等值面，那些在某些方向上的梯度很大，在其他方向上的梯度很小的地方，就叫做ravine。在这些点上，SGD算法在收敛到局部最优点的过程中容易产生振荡。如下图(a)所示：

tupian

(a)图上面靠近椭圆等值面的长轴附近的区域应该就是上面说的ravine，在这些区域短轴方向梯度比较大，长轴方向梯度比较小，在用SGD算法的时候，容易造成振荡。虽然可能也能收敛到local optimal，但是收敛的速度会比较慢。

Momentum的方法
普通SGD的梯度更新策略如下式：

θ = θ - η \nabla θ J (θ)

$\theta = \theta - \eta\nabla_{\theta}{\it J}(\theta)$
加上momentum项的梯度更新策略如下式：

v t = γ v t - 1 + η \nabla θ J (θ)

$v_t = \gamma v_{t - 1} + \eta\nabla_{\theta}{\it J}(\theta)$

θ = θ - v t

$\theta = \theta - v_{t}$
也就是说，当前时刻权重的变化量和当前时刻的梯度以及前一时刻的权重的变化量相关。ituitively来说，设置momentum项的原因在于，当目标函数的surface存在一个长而狭窄的vally的时候，梯度的方向几乎总是和长轴的方向垂直。系统因此不断地沿着短轴的方向在震荡，沿着长轴方向的速度很慢。而 momentum项能够部分抵消当前时刻沿长轴方向的梯度分量，增大沿短轴方向的分量。这样可以加快收敛。