批量梯度下降（BGD）,随机梯度下降（SGD），小批量梯度下降（MBGD）对比理解

最新推荐文章于 2024-02-27 16:13:00 发布

dastu

最新推荐文章于 2024-02-27 16:13:00 发布

阅读量921

点赞数

分类专栏：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44467105/article/details/104881322

版权

数据挖掘专栏收录该内容

25 篇文章 0 订阅

订阅专栏

1.批量梯度下降（BGD）

我们所说的梯度下降算法一般都默认是批量梯度下降。我们用每个样本去计算每个参数的梯度后，要将这个梯度进行累加求和
在这里插入图片描述
注意这里有一个求和符号，意思就是我们每次计算参数都是用全部的样本来计算这个参数的变化。
优点：
1.每次都使用全部全部数据，能更好的代表样本总体，从而更好的指示了正确的梯度下降的方向。
2.对于凸最优化问题，一定能够收敛的全局最优
3 可以并行化
缺点：
每次都使用全部样本进行计算，会导致计算量很大，对于样本数量很大的情况，这种计算会很耗费时间。

2.随机梯度下降(SGD)

与批量梯度下降不同，随机梯度下降每次迭代只使用一个样本来更新参数，使得训练速度更快。
在这里插入图片描述
注意这里是没有求和符号的，因为只用第i个样本来进行这次更新的计算。

优点：
每次迭代只用一个样本来更新参数，这就使得每次迭代的速度会大大加快，虽然不是每次迭代得到的损失函数都向着全局最优方向，但是大的整体的方向是向全局最优解的。
缺点：
很大可能会收敛于局部最优

3.小批量梯度下降（MBGD）

小批量梯度下降实际上是在批量梯度下降和随机梯度下降之间做了个中和。
下面我们假设一共1000个样本，每次迭代用10个样本进行参数更新，那么参数的更新如下。
在这里插入图片描述
对于小批量梯度下降需要注意的就是这个批量batch大小的选择：
如果选择过大：
1.如果batch过大的话，那么我们每个batch就变化很小，就有点接进去批量梯度下降算法
2.内存可能会撑不住
如果选择过小：
会导致其接近于随机梯度下降算法，它的梯度方向可能没那么准确

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
批量梯度下降（BGD）,随机梯度下降（SGD），小批量梯度下降（MBGD）对比理解

1.批量梯度下降（BGD）我们所说的梯度下降算法一般都默认是批量梯度下降。我们用每个样本去计算每个参数的梯度后，要将这个梯度进行累加求和注意这里有一个求和符号，意思就是我们每次计算参数都是用全部的样本来计算这个参数的变化。优点：1.每次都使用全部全部数据，能更好的代表样本总体，从而更好的指示了正确的梯度下降的方向。2.对于凸最优化问题，一定能够收敛的全局最优缺点：每次都使用全部样本...
复制链接

扫一扫

专栏目录

dastu CSDN认证博客专家 CSDN认证企业博客

码龄6年

33: 原创

42万+: 周排名

108万+: 总排名

4万+: 访问

: 等级

687: 积分

7: 粉丝

20: 获赞

9: 评论

106: 收藏

私信

关注

热门文章

分类专栏

NLP 1篇
社交网络 4篇
数据挖掘 25篇
爬虫
推荐算法 1篇
算法 1篇

最新评论

理解K折交叉验证
dastu: K折就是一种思想，怎么实现都行，只不过手动这样比较麻烦
理解K折交叉验证
cv小菜鸡: 楼主，请问按这样的规则手动训练k次算是k折交叉验证么
二叉树的前中后序遍历递归/非递归（python版）
m0_51693022: 中序遍历的递归写法写错了吧，递归用的函数不对呀
学习笔记——XGBoost(极端梯度提升)
dastu: gti和hti就是求导得来的
学习笔记——XGBoost(极端梯度提升)
joyes1989: 感谢分享，请教一个问题：gti和hti具体如何计算呢

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。