神经网络模型优化器

目录

复习优化器

SGD(随机梯度下降)

SGD with momentum

Adagard

RMSProp

Adam

Adam与SGDM

神经网络的表示方法


复习优化器

SGD(随机梯度下降)

        SGD是最基本的一种方法,先初始化参数\theta ^{0},计算梯度,往梯度的反方向走一步到达\theta ^{1},因为拐点的方向L是增加的,所以要往它的反方向走一步,继续计算\theta ^{1}处的梯度,再往其反方向走,每一个time_step都是计算梯度之后往其反方向走一步。

SGD with momentum

        和SGD一样,一开始都要初始化参数\theta ^{0},不同的是设置一个movement即v^{0}=0,计算\theta ^{0}处的梯度,取其反方向作为需要更新的方向,movement计算更新的步长更新v^{1} = \lambda v^{0}-\eta▽L(\theta ^{0}),同时\theta ^{1}=\theta ^{0}+v^{1}

         加入moment的好处就在于,即使当前步骤的梯度为0,由于前一项的移动会累加到下一步,所以movement的步长还会有一定的大小,下图中,最后一个点的移动,由于计算出来梯度的方向是如绿色箭头所示,理论上会选择红色箭头(绿色箭头的反方向),但是由于之前的计算有一个movement的累加,那么就会选择更有可能存在最小值的右侧,而不是像之前的SGD一样趋近左侧梯度为0的值。

Adagard

        如果一开始的梯度很大,那么开始就会暴走,很有可能走到更差的位置,加上分母,即除以过去所有拐点的和,即如果前几步走很大步,那么作为分母之后,下一步就会变小步。

RMSProp

        与SGD with movement差不多,都采用了v^{t}作为步长,但是RMSprop采用的是加权平均的方式。但是并没有改变SGD中卡在一个梯度为0的位置的问题。

Adam

        Adam = SGDM+RMSprop(具体见笔记)另外还多了偏差修正,

Adam与SGDM

Adam:训练速度快,落差较大,比较不稳定。

SGDM:比较稳定,落差比较小,相对较稳定,最后的时候能够收敛到较小的值。

神经网络的表示方法

         最后这个图就是一个神经网络架构,input是x_{t},通过计算得到y_{t},这个y_{t}会被拿去和\widehat{y}_{t}计算损失函数L(y_{t},\widehat{y}_{t})。

        优化器的作用就是找到一组参数θ,使得所有损失函数的和最小。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值