“随机梯度下降、牛顿法、动量法、Nesterov、AdaGrad、RMSprop、Adam”

“随机梯度下降、牛顿法、动量法、Nesterov、AdaGrad、RMSprop、Adam”

随机梯度下降法

怎么减小每次计算的参数量?
梯度下降法性价比低。
mini-batch等价于随机梯度下降法。

在这里插入图片描述
步长越大和理想下降路径偏离越大。

牛顿法

在这里插入图片描述
在这里插入图片描述
实用性较差

动量法

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
指数加权移动平均法
在这里插入图片描述
动量法:把历史的数据也考虑进来,对参数的修改进行一些修正。

Nesterov

动量法:梯度和冲量共同决定下降方向。
在这里插入图片描述
怎么做到超前?
Nesterov:不止利用历史数据,还要向前超前一步,然后再修正下降方向。

学习率应该慢慢减小的。

最简单的方法,每迭代一步,学习率减少一个固定的数值。
当然这种方法并不好用。

AdaGrad

在这里插入图片描述
在学习率下面除以一个数值,这个数值是历史上所有的梯度数据的平方再开方。
在这里插入图片描述
适用于稀疏数据,更容易出现震荡,adagrad能够很好的解决这种情况。

RMSprop

在adagrad的基础上,采用指数加权移动平均法,强调了近的历史数据的影响,忽略了远的历史数据的影响,这样下降时该快的时候就快,该慢的时候就慢。
在这里插入图片描述

Adam

RMSprop和动量法的结合
在这里插入图片描述

Nadam

AdaGrad 和Nesterov结合

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值