10、Batch梯度下降

爱补鱼的猫猫

已于 2023-04-11 23:04:37 修改

阅读量410

点赞数 1

分类专栏：深度学习笔记文章标签： batch 机器学习深度学习

于 2023-04-11 21:51:06 首次发布

本文链接：https://blog.csdn.net/weixin_44986037/article/details/130093637

版权

深度学习笔记专栏收录该内容

12 篇文章 1 订阅

订阅专栏

这里写目录标题

1、批量梯度下降（Batch Gradient Descent，BGD）
2、随机梯度下降（Stochastic Gradient Descent，SGD）
3、小批量梯度下降（Mini-Batch Gradient Descent, MBGD）

梯度下降最核心的就是对函数求偏导，这个是在高等数学里有的。梯度下降的本质：是一种使用梯度去迭代更新权重参数使目标函数最小化的方法。
梯度下降法有三种不同的形式：批量梯度下降（Batch Gradient Descent）、随机梯度下降（Stochastic Gradient Descent）以及小批量梯度下降（Mini-Batch Gradient Descent）。其中小批量梯度下降法也常用在深度学习中进行模型的训练。

1、批量梯度下降（Batch Gradient Descent，BGD）

批量梯度下降法是最原始的形式，它是指在每一次迭代时使用所有样本来进行梯度的更新。
在这里插入图片描述

在这里插入图片描述

优点：
（1）一次迭代是对所有样本进行计算，此时利用矩阵进行操作，实现了并行。
（2）由全数据集确定的方向能够更好地代表样本总体，从而更准确地朝向极值所在的方向。当目标函数为凸函数时，BGD一定能够得到全局最优。
（1）在训练过程中，使用固定的学习率，不必担心学习率衰退现象的出现。
（2）由全数据集确定的方向能够更好地代表样本总体，从而更准确地朝向极值所在的方向。当目标函数为凸函数时，一定能收敛到全局最小值，如果目标函数非凸则收敛到局部最小值。
缺点：
（1）当样本数目 m 很大时，每迭代一步都需要对所有样本计算，训练过程会很慢。
从迭代的次数上来看，BGD迭代的次数相对较少。
（2）每次的更新都是在遍历全部样例之后发生的，这时才会发现一些例子可能是多余的且对参数更新没有太大的作用。

2、随机梯度下降（Stochastic Gradient Descent，SGD）

随机梯度下降法不同于批量梯度下降，随机梯度下降是每次迭代使用一个样本来对参数进行更新。
在这里插入图片描述

优点：
（1）由于不是在全部训练数据上的损失函数，而是在每轮迭代中，随机优化某一条训练数据上的损失函数，这样每一轮参数的更新速度大大加快。
（1）在学习过程中加入了噪声，提高了泛化误差。
（2）由于不是在全部训练数据上的损失函数，而是在每轮迭代中，随机优化某一条训练数据上的损失函数，这样每一轮参数的更新速度大大加快。

缺点：
（1）准确度下降。由于即使在目标函数为强凸函数的情况下，SGD仍旧无法做到线性收敛。
（2）可能会收敛到局部最优，由于单个样本并不能代表全体样本的趋势。
（3）不易于并行实现。
（1）不收敛，在最小值附近波动。
（2）不能在一个样本中使用向量化计算，学习过程变得很慢。
（3）单个样本并不能代表全体样本的趋势。
（4）当遇到局部极小值或鞍点时，SGD会卡在梯度为0处。

3、小批量梯度下降（Mini-Batch Gradient Descent, MBGD）

小批量梯度下降，是对批量梯度下降以及随机梯度下降的一个折中办法。其思想是：每次迭代使用 ** batch_size** 个样本来对参数进行更新。
在这里插入图片描述

优点：
（1）通过矩阵运算，每次在一个batch上优化神经网络参数并不会比单个数据慢太多。
（2）每次使用一个batch可以大大减小收敛所需要的迭代次数，同时可以使收敛到的结果更加接近梯度下降的效果。(比如上例中的30W，设置batch_size=100时，需要迭代3000次，远小于SGD的30W次)
（1）计算速度比Batch Gradient Descent快，因为只遍历部分样例就可执行更新。
（2）随机选择样例有利于避免重复多余的样例和对参数更新较少贡献的样例。
（3）每次使用一个batch可以大大减小收敛所需要的迭代次数，同时可以使收敛到的结果更加接近梯度下降的效果。
（4）可实现并行化。

缺点：
（1）在迭代的过程中，因为噪音的存在，学习过程会出现波动。因此，它在最小值的区域徘徊，不会收敛。
（2）学习过程会有更多的振荡，为更接近最小值，需要增加学习率衰减项，以降低学习率，避免过度振荡。
（3）batch_size的不当选择可能会带来一些问题。

mini-batch的SGD算法中一个关键参数是学习率。在实践中，有必要随着时间的推移逐渐降低学习率—学习率衰减(learning rate decay)。
为什么要进行学习率衰减呢？
在梯度下降初期，能接受较大的步长（学习率），以较快的速度进行梯度下降。当收敛时，我们希望步长小一点，并且在最小值附近小幅摆动。假设模型已经接近梯度较小的区域，若保持原来的学习率，只能在最优点附近徘徊。如果降低学习率，目标函数能够进一步降低，有助于算法的收敛，更容易接近最优解。

参考：
https://zhuanlan.zhihu.com/p/72929546
https://blog.csdn.net/yato0514/article/details/82261821