批量梯度下降、随机梯度下降和小批量梯度下降

最新推荐文章于 2024-04-14 12:27:25 发布

一枚达达

最新推荐文章于 2024-04-14 12:27:25 发布

阅读量1.9k

点赞数 2

文章标签：深度学习机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_48457572/article/details/113443962

版权

首先要知道梯度下降的概念，拿二维的线性回归举例：

1. 初始化，得到一个初始线；

2. 有了初始线，可以计算所有点的误差，也就是损失函数；

对于线性回归，就是构造一个关于斜率w，以及一个关于截距b的损失函数L(w)和L(b)

3. 令， $w := w+t\Delta w , \Delta w=-\triangledown L(w)$

$b := b+t\Delta b , \Delta b=-\triangledown L(b)$

然后导入上面的损失函数中。

这里的 t 是步长，表示梯度下降的幅度。在机器学习中，也称为学习率，因为他表示了每一步迭代，即每一次学习的影响和程度。

在我的理解中，t 值太大的话，容易错过最优值，反而导致下降速度变慢。

因此虽然你可以自拟learning rate，但在优化中还是推荐exact line search或者backtracking line search。

这里只介绍第一个，exact line search：

原理很简单就是把 $w := w+t\Delta w , \Delta w=-\triangledown L(w)$ 代入原损失函数后，你可以得到一个含有w和t的函数

因为损失函数通常都是二型范数，即平方差式子，最后得到的函数在假设w已知的情况下，可以得到t的最优值。

再将这个 t 值代入 $w := w+t\Delta w$ ，你就得到了优化一步的斜率。

反复迭代，最终得到最优的w和b。

原理是这么个原理，但是每一次我们计算损失函数的时候，就有说法了。

如果我们把所有数据都用上，这种“顾全大局”的计算方式是最能体现优化效果的，我们称之为批量梯度下降。他可以通过迭代顺利到达最优点，而且每一次都肯定会有优化。

但是众所周知，我们已经是大数据时代了。

如果每一次都面对所有的样本，来计算损失函数L(w)的话，效率太慢了。如果有些数据集是以百万为单位的话，那么每次训练或者再训练模型的时候都要算一次损失函数，属实吃不消。

所以有了以下两种，每次只拿一部分的方法：

下图是一幅经典的图，来自吴恩达的深度学习课程：（蓝色是批量下降，紫色是随机下降，绿色是小批量下降）

随机梯度下降：

随机梯度下降是每次随机抽取一个数据进行迭代。

这种方法可以让每次迭代的计算量最小，但既然是随机抽取一个数据，那么就会出现优化出来的w，其实不是往w最佳值的方向走的情况。

而且最终结果往往都不会是最优值，而是围绕着最佳值浮动，如图中的紫线所示。

小批量梯度下降：

小批量梯度下降是每次抽取好几个数据进行迭代。对于大型数据集来说，每批数据可以是数千或者上万。

如此一来，即保证了迭代的速度，由防止随机抽取单个样本带来的较大偏差。

虽然最后也可能得不到最优值，但围绕最优值波动的幅度更小，如图中的绿线所示。

关注

2
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
批量梯度下降、随机梯度下降和小批量梯度下降

首先要知道梯度下降的概念，拿二维的线性回归举例：1. 初始化，得到一个初始线；2. 有了初始线，可以计算所有点的误差，也就是损失函数；对于线性回归，就是构造一个关于斜率w，以及一个关于截距b的损失函数L(w)和L(b)3. 令，然后导入上面的损失函数中。这里的 t 是步长，表示梯度下降的幅度。在机器学习中，也称为学习率，因为他表示了每一步迭代，即每一次学习的影响和程度。在我的理解中，t 值太大的话，容易错过最优值，反而导致下降速度变慢。因...
复制链接

扫一扫

一枚达达 CSDN认证博客专家 CSDN认证企业博客

码龄4年

12: 原创

106万+: 周排名

81万+: 总排名

1万+: 访问

: 等级

180: 积分

8: 粉丝

11: 获赞

9: 评论

50: 收藏

私信

关注

热门文章

最新评论

分类与逻辑回归(classification and logistic regression)
一枚达达: 嗯嗯是的，我的理解是classification的英文释义是“分类”，分类是我们要解决的问题也是目标，像kmeans这种无监督学习，就是没有target但其实也算是一个分类问题，即把空间点分为几组聚“类”；logistic则相对的是监督学习问题，最终通过训练一个模型，实现的也是将没有target的test集预测出他们属于哪一类。即我的理解是logistic是一种实现classification的方法
分类与逻辑回归(classification and logistic regression)
橘猫吃鸡腿: classification还是包括LDA，贝叶斯那些吧，感觉区别是logistic你知道结果是A还是B，classification的话你不知道结果是什么，只管分类，有监督和无监督的区别，个人感觉，欢迎指正
分类与逻辑回归(classification and logistic regression)
一枚达达: classification是一种问题，logistics regression是解决分类问题的一种模型或者方式
分类与逻辑回归(classification and logistic regression)
橘猫吃鸡腿: 所以logistic和classification有啥区别
凸优化解决线性回归问题
不吃西红柿丶: 平凡文字中显示出不凡的文学功底，哈哈哈哈哈哈。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。