pytorch的几种优化算法

最新推荐文章于 2024-06-18 16:46:10 发布

zxyjune

最新推荐文章于 2024-06-18 16:46:10 发布

阅读量1.2k

点赞数 1

分类专栏：深度学习文章标签：深度学习 pytorch

原文链接：https://www.jianshu.com/p/1a1339c4acd7

版权

深度学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

原文链接：https://www.jianshu.com/p/1a1339c4acd7（侵删！！！！）

一、SGD（stochastic gradient descent）随机梯度下降

优点:
虽然SGD收敛比较波折，但是对梯度的要求很低（计算梯度快）。而对于引入噪声，大量的理论和实践工作证明，只要噪声不是特别大，SGD都能很好地收敛。应用大型数据集时，训练速度很快。比如每次从百万数据样本中，取几百个数据点，算一个SGD梯度，更新一下模型参数。相比于标准梯度下降法的遍历全部样本，每输入一个样本更新一次参数，要快得多。
缺点:
SGD在随机选择梯度的同时会引入噪声，使得权值更新的方向不一定正确。此外，SGD也没能单独克服局部最优解的问题。

二、Momentum 标准动量优化算法

使用动量(Momentum)的随机梯度下降法(SGD)，主要思想是引入一个积攒历史梯度信息动量来加速SGD。

Momentum主要解决SGD的两个问题：一是随机梯度的方法（引入的噪声）；二是Hessian矩阵病态问题（可以理解为SGD在收敛过程中和正确梯度相比来回摆动比较大的问题）。
简单理解：由于当前权值的改变会受到上一次权值改变的影响，类似于小球向下滚动的时候带上了惯性。这样可以加快小球向下滚动的速度。

三、RMSProp

与Momentum梯度下降一样，都是消除梯度下降过程中的摆动来加速梯度下降的方法。

RMSProp算法在经验上已经被证明是一种有效且实用的深度神经网络优化算法。目前它是深度学习从业者经常采用的优化方法之一。

四、Adam

Adam中动量直接并入了梯度一阶矩（指数加权）的估计。其次，相比于缺少修正因子导致二阶矩估计可能在训练初期具有很高偏置的RMSProp，Adam包括偏置修正，修正从原点初始化的一阶矩（动量项）和（非中心的）二阶矩估计。在实际操作中，推荐Adam作为默认算法，一般比RMSProp要好一点。

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
pytorch的几种优化算法

原文链接：https://www.jianshu.com/p/1a1339c4acd7（侵删！！！！）一、SGD（stochastic gradient descent）随机梯度下降优点: 虽然SGD收敛比较波折，但是对梯度的要求很低（计算梯度快）。而对于引入噪声，大量的理论和实践工作证明，只要噪声不是特别大，SGD都能很好地收敛。应用大型数据集时，训练速度很快。比如每次从百万数据...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。