（补充）:深层次网络中的梯度消失和梯度爆炸现象，原因以及处理方式

最新推荐文章于 2025-04-06 20:23:26 发布

贝壳er

最新推荐文章于 2025-04-06 20:23:26 发布

阅读量4k

点赞数

分类专栏：机器学习和深度学习文章标签：深度学习梯度问题

本文链接：https://blog.csdn.net/wlx19970505/article/details/86681306

版权

机器学习和深度学习专栏收录该内容

10 篇文章

订阅专栏

本文探讨了在深度学习中常见的梯度消失和梯度爆炸问题，分析了这些问题产生的原因，包括网络层次过深和激活函数的选择不当。并提出了几种解决方案，如梯度剪切、正则化、更换激活函数及使用LSTM网络。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

关于梯度消失和爆炸，其前提是采用梯度下降办法去更新网络参数，使得代价函数最小化。出现梯度消失和爆炸的原因基本上归为两点：一，网络层次太深，由于很多网络的更新时的链式原理，使得更新信息往往指数级变化；二，采用了不合适的激活函数，比如sigmoid，梯度爆炸一般出现在深层网络和权值初始化值太大的情况下。

1.深层网络角度

比较简单的深层网络如下：

这里写图片描述

图中是一个四层的全连接网络，假设每一层网络激活后的输出为 $f_{i}\left ( x \right )$ ，其中 $i$ 为第 $i$ 层, $x$ 代表第 $i$ 层的输入， $f$ 是激活函数，那么，得出 $f_{i+1}=f\left ( f_{i}*\omega _{i+1}+b_{i+1} \right )$ 。
例如BP算法基于梯度下降策略，以目标的负梯度方向对参数进行调整，参数的更新为w←w+Δw，给定学习率α，得出 $\Delta \omega =-\alpha \frac{\partial Loss}{\partial \omega }$ 。如果要更新第二隐藏层的权值信息，根据链式求导法则，更新梯度信息：
$\Delta \omega _{2}=\frac{\partial Loss}{\partial \omega _{2}}=\frac{\partial Loss}{\partial f_{4}}\frac{\partial f_{4}}{\partial f_{3}}\frac{\partial f{_{3}}}{\partial f{_{2}}}\frac{\partial f_{2}}{\partial \omega _{2}}$ ，很容易看出来 $\frac{\partial f_{2}}{\partial \omega _{2}}=\frac{\partial f}{\partial (f_{1}*\omega _{2}))}f_{1}$ ，即第二隐藏层的输入。
所以说， $\frac{\partial f_{3}}{\partial f_{4}}$ 就是对激活函数进行求导，如果此部分大于1，那么层数增多的时候，最终的求出的梯度更新将以指数形式增加，即发生梯度爆炸，如果此部分小于1，那么随着层数增多，求出的梯度更新信息将会以指数形式衰减，即发生了梯度消失。

2.激活函数角度

其实也注意到了，上文中提到计算权值更新信息的时候需要计算前层偏导信息，因此如果激活函数选择不合适，比如使用sigmoid，梯度消失就会很明显了，原因看下图，左图是sigmoid的损失函数图，右边是其导数的图像，如果使用sigmoid作为损失函数，其梯度是不可能超过0.25的，这样经过链式求导之后，很容易发生梯度消失。

sigmoid函数 sigmoid函数导数