几种常见的优化方法

最新推荐文章于 2024-01-28 22:15:49 发布

菜不卷

最新推荐文章于 2024-01-28 22:15:49 发布

阅读量2.2k

点赞数

分类专栏：神经网络文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44414593/article/details/108227563

版权

神经网络专栏收录该内容

2 篇文章 0 订阅

订阅专栏

梯度下降法

在这里插入图片描述
这种算法比较直白，参数的变化量完全依赖于学习率和当前batch的损失。缺点也很明显，因为batch是随机的，所以变化的方向不确定。
从梯度下降法可以看出，参数的变化量完全依赖于学习率和当前batch的损失。所以有两种改进方法，一种是改进“损失”，另外一种则是改进学习率。

momentum

momentum算法是用于改进梯度下降法的。momentum算法的公式为：
在这里插入图片描述
参数的变换量又两部分组成，一部分是“惯性”，另一部分是损失，可以降低batch不均匀的影响。

adagrad

adagrad是一种自动修改学习率的算法，其公式为：
在这里插入图片描述

其学习率为初始学习率/梯度平方的累积和。所以可以得知，越到后期，随着梯度平方的累计和越来越大，学习率就会越来越小。
adagrad可以解决学习后期学习率过大导致的震荡问题，但是adagrad又引发了一个新的问题，就是学习率会过早的减少，导致学习太慢。

RMSprop

RMSprop是adagrad的改进版，其公式为：
在这里插入图片描述

adagrad算法需要累计遥远的历史信息，RMSprop则仅仅使用最近的信息，一样能达到降低学习率的效果，并且不会过早衰减，节省内存，在非凸的情况下表现比adagrad更好。

Adam

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
几种常见的优化方法

梯度下降法这种算法比较直白，参数的变化量完全依赖于学习率和当前batch的损失。缺点也很明显，因为batch是随机的，所以变化的方向不确定。从梯度下降法可以看出，参数的变化量完全依赖于学习率和当前batch的损失。所以有两种改进方法，一种是改进“损失”，另外一种则是改进学习率。momentummomentum算法是用于改进梯度下降法的。momentum算法的公式为：参数的变换量又两部分组成，一部分是“惯性”，另一部分是损失，可以降低batch不均匀的影响。adagradadagrad是一种
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。