梯度计算（Gradient calculation）

幼儿园大哥~

已于 2024-06-30 10:43:28 修改

阅读量480

点赞数 3

分类专栏：扩展知识文章标签：深度学习梯度计算时间序列

于 2024-06-14 10:40:17 首次发布

本文链接：https://blog.csdn.net/weixin_45633221/article/details/139675193

版权

28 篇文章 0 订阅

订阅专栏

在深度学习中，梯度计算是优化模型参数的关键步骤。梯度是一个向量，表示多变量函数在某一点的导数（偏导数）的集合，它指明了函数值增加最快的方向。然而，在深度学习优化过程中，我们更关心的是损失函数减少的方向，因此通常使用梯度的反方向来更新模型的参数。

梯度下降定义：

梯度下降（ $Gradient\ Descent$ ）是一种优化算法，用于寻找最小化损失函数（或成本函数）的参数值。它的工作原理是，通过计算损失函数关于模型参数的梯度，然后沿着梯度的反方向（即最陡峭的下降方向）更新参数。这样，每次迭代都会使损失函数值减小（至少在局部上是这样的），从而逐渐接近损失函数的最小值。

批量梯度下降（ $Batch\ Gradient\ Descent,BGD$ ）：在每次迭代中使用整个数据集来计算梯度并更新参数。这种方法计算量大，但通常能保证收敛到全局最小值（对于凸损失函数。
随机梯度下降（ $Stochastic\ Gradient\ Descent, SGD$ ）：在每次迭代中只使用一个样本来计算梯度并更新参数。这种方法计算量小，收敛速度快，但可能会引入噪声，导致在最小值附近震荡。
小批量梯度下降（ $M ini - B a t c h G r a d i e n t Desce n t, MBG D$ ）：每次使用一小批样本来计算梯度，权衡了计算效率和稳定性，是 $BG D$ 和 $SG D$ 之间的折中方式。

在深度学习中，梯度尤其重要，因为我们通常使用梯度下降算法来更新神经网络的参数。此时，梯度被用于计算在给定损失函数和当前参数值下，每个参数应该移动的方向和幅度，以使损失函数最小化。
在梯度更新过程中可能会遇到一些问题，如梯度消失和梯度爆炸。梯度消失是指在网络层数过多时，梯度通过反向传播时，乘积链中包含大量小于1的数，导致传到前面层时梯度越来越小，甚至趋向于零。这会导致网络前面层的权重几乎不更新，使得模型难以训练[4]。而梯度爆炸则是相反的情况，即梯度值过大，导致模型训练不稳定。为了解决这些问题，研究者们提出了各种优化方法，如动量法、自适应学习率方法等。

关注