深度学习中的三种梯度下降方式：批量（batch），随机（stochastic），小批量（mini-batch）

xiaotao_1

于 2018-07-13 15:00:00 发布

阅读量1.2w

点赞数 11

分类专栏：深度学习文章标签：深度学习批量梯度下降随机梯度下降小批量梯度下降

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiaotao_1/article/details/81031633

版权

深度学习专栏收录该内容

5 篇文章

订阅专栏

本文介绍了三种梯度下降法：批量梯度下降法、随机梯度下降法和小批量梯度下降法。详细讨论了各自的优缺点及适用场景，帮助读者理解不同方法的选择依据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

　　1，批量梯度下降法（Batch Gradient Descent） ：在更新参数时都使用所有的样本来进行更新。

　　优点：全局最优解，能保证每一次更新权值，都能降低损失函数；易于并行实现。

　　缺点：当样本数目很多时，训练过程会很慢。

　　2，随机梯度下降法（Stochastic Gradient Descent）：在更新参数时都使用一个样本来进行更新。每一次跟新参数都用一个样本，更新很多次。如果样本量很大的情况（例如几十万），那么可能只用其中几万条或者几千条的样本，就已经将参数迭代到最优解了，对比上面的批量梯度下降，迭代一次需要用到十几万训练样本，一次迭代不可能最优，如果迭代10次的话就需要遍历训练样本10次，这种方式计算复杂度太高。

　　优点：训练速度快；

　　缺点：准确度下降，并不是全局最优；不易于并行实现。从迭代的次数上来看，随机梯度下降法迭代的次数较多，在解空间的搜索过程看起来很盲目。噪音很多，使得它并不是每次迭代都向着整体最优化方向。

　　3，小批量梯度下降法（Mini-batch Gradient Descen）：在更新每一参数时都使用一部分样本来进行更新。为了克服上面两种方法的缺点，又同时兼顾两种方法的优点。

　　4，三种方法使用的情况：如果样本量比较小，采用批量梯度下降算法。如果样本太大，或者在线算法，使用随机梯度下降算法。在实际的一般情况下，采用小批量梯度下降算法。

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。