梯度下降法

NanciZhao

于 2019-08-16 10:29:57 发布

阅读量243

点赞数

分类专栏：人工智能优化算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yeziyezi1986/article/details/99672965

版权

人工智能优化算法专栏收录该内容

6 篇文章 0 订阅

订阅专栏

一、梯度下降法

二、SGD

这里SGD和min-batch是同一个意思，抽取m个小批量（独立同分布）样本，通过计算他们的梯度均值。后面几个改进算法，均采用mini-batch的方式。

三、动量梯度下降法(Mometum)

由于SGD具有强烈的振荡，momentum就是为了缓解这种振荡而提出的：

直观上讲就是，要是当前时刻的梯度与历史时刻梯度方向相似，这种缺失在当前时刻则会加强；要是不同，则当前时刻的梯度方向减弱。

四、AdaGrad

自适应梯度。通过将learning rate除以S的平方根进行更新。S指的是历史和当前梯度的平方的累加。

当前梯度越大，S越大，学习率越小；当前梯度越小，S越小，学习率越大；

五、RMSProp

是对AdaGrad的一种改进。

六、Adam

是对Momentum和RMProp的一个结合。

综合解决：振荡和自适应学习率的问题。

1. Adam算法可以看做是修正后的Momentum+RMSProp算法；

2. 动量直接并入梯度-一阶矩估计中（指数加权）；

3. Adam通常被认为对超参数的选择相当鲁棒；

4. 学习率建议为0.001

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
梯度下降法

一、梯度下降法二、SGD这里SGD和min-batch是同一个意思，抽取m个小批量（独立同分布）样本，通过计算他们的梯度均值。后面几个改进算法，均采用mini-batch的方式。三、动量梯度下降法(Mometum)由于SGD具有强烈的振荡，momentum就是为了缓解这种振荡而提出的：直观上讲就是，要是当前时刻的梯度与历史时刻梯度方向相似，这种缺失在当前时刻则会加强；要是不同，...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。