深度学习（8）：Momentum RMSprop Adam 学习率衰减

VIP文章 awake020

于 2020-04-18 23:30:52 发布

阅读量939

点赞数

分类专栏：深度学习笔记文章标签：深度学习机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44334615/article/details/105607457

版权

指数加权平均

对于一个序列a[1]，a[2]…a[3]
我们定义一个数组v[], 其中
v[0]=0
v[i]= beta*v[i-1] + (1-beta)*a[i]
这个v就叫做a的指数加权平均值
可以直观的理解为v[i]代表着a[i]之前的1/（1-beta）组数据的平均值，例如beta为0.9时，v[n]近似代表着v[n-9]-v[n]的平均值

然而我们可以发现，由于v[0]=0,导致在计算初期，我们的平均值是不准确的，例如v[1]和a[1]差了(1-beta)倍。
因此我们想到对其进行偏差修正：
v_correct[i] = v[i]/(1-betaⁱ)
可以看到，初始时1/(1-betaⁱ)起到修正效果。当i逐渐增大时，滑动平均值已经趋于准确，而此时的1/(1-betaⁱ)也恰好接近于1。

Momentum梯度下降法

对于简单的梯度下降法我们如下更新参数：
w = w - dw*learning_rate

在Momentum梯度下降法中我们令v_dw代表dw的指数加权平均值：
w = w - v_dw*learning_rate

这样做的好处是：对于简单的梯度下降法，在训练参数时可能出现这样的情况：
在这里插入图片描述
在训练的过程中参数变化会产生抖动，

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深度学习（8）：Momentum RMSprop Adam 学习率衰减

指数加权平均对于一个序列a[1]，a[2]…a[3]我们定义一个数组v[], 其中v[i]= beta*v[i-1] + (1-beta)*a[i]这个v就叫做a的指数加权平均值可以直观的理解为v[i]代表着a[i]之前的1/（1-beta）组数据的平均值，例如beta为0.9时，v[n]近似代表着v[n-9]-v[n]的平均值Momentum梯度下降法对于简单的梯度下降法我们如下更...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。