神经网络优化算法综述

原创 2017年05月23日 00:15:10

神经网络的训练有不同算法,本文将简要介绍常见的训练算法:adagrad、momentum、nag、rmsprop。同时简要介绍如何进行算法检查。

这里写图片描述

算法检查

当我们实施了神经网络的梯度算法后,怎么知道我们的算法是否正确。在用于大规模数据之前,需要做两件事:

  • gradient check
  • sanity check

gradient check

梯度检查,就是检查我们的梯度更新是否正确。具体地,检查分析计算出的梯度与数值梯度是否足够接近。

df(x)dx=f(x+h)f(x)h(bad, do not use)

df(x)dx=f(x+h)f(xh)2h(use instead)

上面显示了两种数值梯度的计算方法,一般采用下面那一种。因为进行泰勒展开后,上面项的误差是O(h),下面项的误差是O(h2)

计算出分析梯度与数值梯度后,需要对两者比较,比较采用相对值如下:

fafnmax(fa,fn)

通常来说,1e-4的相对误差对于包含kinks的网络(例如relu)是可以接受的,对大多数网络1e-7的误差是相对较好的。

梯度检查有几点建议:

  • 使用双精度
  • 观察浮点数的范围,不要太小或者太大,以免超出精度限制
  • 注意目标函数中是否存在kinks(relu),如果存在可以减少测试点的数量
  • step不是越小越好,过小会遇到数值问题
  • 检查的网络状态应该是网络的特征状态,不要在网络初始状态进行检查
  • 检查的时候不要让正则项过强,否则会影响盖住data loss
  • 关掉dropout等随机机制,对dropout额外进行检测
  • 高维数据检测部分维度即可

sanity check

  • 随机化数据,看看loss的计算是否符合预期
  • 增强正则项,看看loss有没有按照预期增加
  • 看看算法是否可以在小的数据集上过拟合

other check

  • 更新的大小与原数据大小的比例在1e-3较合适。
# assume parameter vector W and its gradient vector dW
param_scale = np.linalg.norm(W.ravel())
update = -learning_rate*dW # simple SGD update
update_scale = np.linalg.norm(update.ravel())
W += update # the actual update
print update_scale / param_scale # want ~1e-3
  • 监测每层激活函数以及梯度的分布
  • 进行参数可视化

一阶算法

Adagrad

在神经网络的训练中,学习率一般随着迭代次数的增长而下降。通常采用学习率的变化公式为:

ηt=ηt+1

可是学习率不仅受时间(迭代次数)的影响,也受当前参数或者说当前参数所在状态的影响。Adagrad便用参数之前导数的rms考虑了参数的状态信息。

令:

gtηtσt=C(θt)w=ηt+1=1t+1i=0t(gi)2

只考虑时间变化的梯度下降与adagrad对比如下:

wt+1wt+1wtηtgtwtηtσtgt

例子如下:

这里写图片描述

adagrad的解释如下:

wt+1wt+1wtηtgtwtηtσtgt

adagrad考虑了梯度随时间以及参数状态的变化,进一步化简可得到:

这里写图片描述

wt+1wtηti=0(gi)2gt

也就是说,在固定的学习率η下,梯度更新的大小:

  • 与当前的梯度gt成正比
  • 与之前的梯度ti=0(gi)2成反比

那么,问题来了:为什么要这么做呢?
答案是:gd是一次逼近,adagrad是用历史的导数信息做二次逼近。而ti=0(gi)2便表征了二次导数信息。

二次逼近的效果好于一次逼近不需赘述,二次逼近的更新公式是xxf(x)f(x)f(x)较容易获得,可是f(x)需要计算海森矩阵不易得到。adagrad的优势就在用一次导数去估计二次导数。

估计的方法是:二次导数越大,那么其对应的一次导数的变化也越大,直观的例子如下:

这里写图片描述

这样做的好处如下图所示,在蓝色箭头部分,一阶导数的值较小,可是按照图中的位置需要更新比较大的距离。这时候考虑二阶导数部分,二阶导数比较小,采用二阶更新办法得到的更新值比较大,满足了我们的要求:

这里写图片描述

总结来说,adagrad的理解有两种方式:

  • 更新的大小不仅跟时间有关,也跟当前参数空间,参数周围的状态有关
  • gd是一阶更新方式,adagrad是二阶更新方式,用历史的梯度信息去近似二阶导数。

momentum

momentum考虑参数更新时会遇到以下三个问题:

  • 参数落在plateau,梯度计算值过小,更新过慢
  • 参数落在鞍点(saddle point),更新值为0
  • 参数落在局部最小值(local minima),更新值为0

这些问题,通过momentum都可以解决。momentum相当于给参数更新加了惯性,更新的方向与距离是通过当前的梯度与上一次更新的方向距离联合得到的。

也就是说:

Movement not just based on gradient, but previous movement.

这里写图片描述

这里写图片描述

nag

nag的全称是Nesterov’s Accelerated Gradient。其是对momentum的改进,区别如下:

  • momentum将之前的移动与当前的梯度联合起来计算新的移动
  • nag先按照之前的移动,然后在新的位置计算梯度,然后把之前的移动与新的梯度联合计算新的移动

nag相比momentum的优势在于:其按照原来的移动先移动了一下,并且计算移动后位置的梯度,相当于对周围的状况有了更多的了解,因此能够更准确的确定新的更新方向。

nag与momentum以及gd对比如下:

这里写图片描述

nag与momentum的原理示意图如下:

这里写图片描述

rmsprop

rmsprop是对adagrad的改进,adgrad利用历史的一阶导数信息去近似估计二阶导数,因此对参数周围的状态有了更多的了解,参数可以更新的更好。
可是,adgrad利用的历史一阶导数信息的权重是相同的。事实上,我们应该更关心当前的状态,也就是说:在估计二阶导数时应该给更近的一阶导数赋予更大的权重。

这里写图片描述

rmsprop引入衰减系数α,公式如下:

这里写图片描述

总结

对以上算法简单总结如下:

# Vanilla update
x += - learning_rate * dx

# Momentum update
v = mu * v - learning_rate * dx # integrate velocity
x += v # integrate position

# nag
x_ahead = x + mu * v
# evaluate dx_ahead (the gradient at x_ahead instead of at x)
v = mu * v - learning_rate * dx_ahead
x += v

# adagrad
cache += dx**2
x += - learning_rate * dx / (np.sqrt(cache) + eps)

# rmsprop
cache = decay_rate * cache + (1 - decay_rate) * dx**2
x += - learning_rate * dx / (np.sqrt(cache) + eps)

# adam, like RMSProp with momentum.
m = beta1*m + (1-beta1)*dx
v = beta2*v + (1-beta2)*(dx**2)
x += - learning_rate * m / (np.sqrt(v) + eps)

二阶算法

牛顿法

首先先来回顾下牛顿法:牛顿法可以用来求f(x)的零点,求解方法是:

xxf(x)f(x)

如果要求f(x)的极值,那么就是求f(x)的零点,求解方法是:

xxf(x)f(x)

x的维度变高后,引入海森矩阵H,有:

xx[Hf(x)]1f(x)

拟牛顿法

牛顿法有个缺点,海森矩阵是非稀疏矩阵,参数太多,其计算量太大。因此拟牛顿法采用一些优化方法去近似计算海森矩阵的逆,大大减少了计算量。

常用的拟牛顿法有:

  • BFGS
  • L-BFGS(使用随着时间的梯度信息去近似海森矩阵的逆)

然而,拟牛顿法在神经网络的训练中用的较少,原因主要是拟牛顿法的训练需要使用全部的数据集。batch的拟牛顿法目前还不成熟。

参考

  1. CS231N
  2. MLDS

神经网络优化算法选择

keras中神经网络优化算法SGD, Adam等如何选择。
  • ybdesire
  • ybdesire
  • 2016-06-30 19:41:29
  • 7765

神经网络优化算法如何选择Adam,SGD

之前在tensorflow上和caffe上都折腾过CNN用来做视频处理,在学习tensorflow例子的时候代码里面给的优化方案默认很多情况下都是直接用的AdamOptimizer优化算法,如下:op...
  • u014381600
  • u014381600
  • 2017-06-05 15:05:20
  • 5973

各种神经网络优化算法:从梯度下降到Adam方法

在调整模型更新权重和偏差参数的方式时,你是否考虑过哪种优化算法能使模型产生更好且更快的效果?应该用梯度下降,随机梯度下降,还是Adam方法? 这篇文章介绍了不同优化算法之间的主要区别,以及如何选择最...
  • itchosen
  • itchosen
  • 2017-08-15 21:28:08
  • 1469

神经网络(优化算法)

神经网络(优化算法) 人工神经网络(ANN),简称神经网络,是一种模仿生物神经网络的结构和功能的数学模型或计算模型。神经网络由大量的人工神经元联结进行计算。大多数情况下人工神经网络能在外界信息的基础...
  • JavaChaoCo
  • JavaChaoCo
  • 2016-03-21 22:07:31
  • 6691

神经网络中的优化算法

什么是优化算法? 给定一个具有参数θ的目标函数,我们想要找到一个w使得目标函数取得最大值或最小值。优化算法就是帮助我们找到这个θ的算法。 在神经网络中,目标函数f就是预测值与标签的误差,我们希望找...
  • panglinzhuo
  • panglinzhuo
  • 2017-09-12 11:14:47
  • 858

基于遗传算法的BP神经网络优化算法

  • 2014年04月05日 22:23
  • 5KB
  • 下载

神经网络的优化算法选择

博文内容转载至:http://blog.csdn.net/ybdesire/article/details/51792925 优化算法 解决优化问题,有很多算法(最常见的就是梯度下...
  • qq_14839543
  • qq_14839543
  • 2017-05-04 21:11:15
  • 787

如何优化深度神经网络

如何优化深度神经网络    网络越深越容易过拟合? 假设训练两个层数不一样的神经网络,一个层数较少(例如20层),一个层数较多(50层),在测试集中我们发现: 测试集上的效果显示20层要56层的...
  • jcjx0315
  • jcjx0315
  • 2017-08-18 11:21:35
  • 1317

CNN感性认识(二)——神经网络的优化

CNN的感性认识,主要介绍几个神经网络优化的方法和超参数,比如softmax,动量,权重衰减,ReLU。...
  • sallyxyl1993
  • sallyxyl1993
  • 2017-04-05 22:06:16
  • 539

常见的神经网络的优化方法

上一篇博客使用了TF建立了一个基本的拥有一层隐含层的神经网络。我们感到激动不已!(- -!)不过(根据前人不断地试验和总结)神经网络有那么几个明显的缺点。我们接下来将对上一篇的代码进行适当修改,再进一...
  • longer_tju
  • longer_tju
  • 2017-07-16 20:58:45
  • 651
收藏助手
不良信息举报
您举报文章:神经网络优化算法综述
举报原因:
原因补充:

(最多只允许输入30个字)