梯度消失解释及简单举例

keith_VV

已于 2023-09-30 10:37:28 修改

阅读量1.4k

点赞数 1

分类专栏：机器学习深度学习文章标签：机器学习

于 2023-09-11 17:48:09 首次发布

本文链接：https://blog.csdn.net/weixin_46483785/article/details/132814010

版权

11 篇文章

订阅专栏

梯度消失

梯度消失是深度学习中一个重要的问题，特别是在使用深层神经网络时经常会遇到。这个问题的核心是在反向传播过程中，梯度逐渐变得非常小，以至于权重更新几乎不再发生，导致模型难以训练或者收敛速度非常慢。这个问题通常出现在深度神经网络中，其中有很多层堆叠在一起。

梯度消失问题的主要原因是深度网络中的链式求导。在反向传播过程中，梯度是从网络的顶部一直传播到底部，每一层都要计算梯度并传递给前一层。如果激活函数的导数值在0附近，或者权重矩阵的特征值接近0，那么梯度就会迅速减小，最终趋近于零，导致权重几乎不再更新。

以下是一些可能导致梯度消失问题的原因：

激活函数的选择：使用一些激活函数，如Sigmoid和Tanh，它们的导数在输入很大或很小的情况下会接近于零，这会导致梯度消失。为了解决这个问题，可以尝试使用具有更好性质的激活函数，如ReLU（Rectified Linear Unit）或Leaky ReLU。
权重初始化：不恰当的权重初始化方法也可能导致梯度消失问题。使用较小的随机权重初始化，或者使用一些专门设计的初始化方法，如Xavier初始化或He初始化，有助于缓解梯度消失问题。
批标准化：批标准化（Batch Normalization）是一种用来减轻梯度消失问题的技术，它通过规范化每个层的输入分布来帮助梯度流动更顺畅。
梯度剪切：在训练过程中，可以使用梯度剪切技术来限制梯度的大小，以避免它们变得太小。
层的设计：有时候，减少网络的深度或使用跳跃连接（如ResNet）等架构设计可以减轻梯度消失问题。
使用LSTM或GRU：在处理序列数据时，使用长短时记忆网络（LSTM）或门控循环单元（GRU）等循环神经网络结构可以减少梯度消失问题。

举个简单的例子
输入：x
如果第一层是：w_{1}x+b_{1} = x’
第二层：w_{2}x’+b_{2} = y
输出y
思考：反向计算的梯度是多少

计算y关于x'的梯度：

$\frac{dy}{dx'} = \frac{d}{dx'}(w_2x' + b_2) = w_2$

计算x'关于x的梯度：

$\frac{dx'}{dx} = \frac{d}{dx}(w_1x + b_1) = w_1$

最后，将它们相乘以获得y关于x的梯度：
$\frac{dy}{dx} = \frac{dy}{dx'} \cdot \frac{dx'}{dx} = w_2 \cdot w_1$

本例中梯度消失就是指：当w_1和w_2相乘时非常小

可以等效到多层情况下。