梯度消失与梯度爆炸的原因及解决方法

最新推荐文章于 2022-10-21 17:59:04 发布

真心乖宝宝

最新推荐文章于 2022-10-21 17:59:04 发布

阅读量310

点赞数 1

分类专栏：神经网络知识点

本文链接：https://blog.csdn.net/weixin_45069761/article/details/106750121

版权

本文探讨了深度学习中梯度消失和梯度爆炸的现象，指出其根源在于反向传播过程中的权重和激活函数导数。梯度消失导致深层网络权重更新困难，梯度爆炸则可能导致训练不稳定性。解决方法包括合适参数初始化、使用ReLU激活函数、梯度裁剪、权重正则化以及批量规范化。LSTM通过门控机制有效缓解了RNN中的梯度消失问题。

摘要由CSDN通过智能技术生成

原因

在多层网络中，影响梯度大小的因素主要有两个：权重和激活函数的偏导，在反向传播过程中需要对激活函数进行求导，如果导数大于1，那么随着网络层数的增加梯度更新将会朝着指数爆炸的方式增加这就是梯度爆炸。同样如果导数小于1，那么随着网络层数的增加梯度更新信息会朝着指数衰减的方式减少这就是梯度消失。因此，梯度消失、爆炸，其根本原因在于反向传播训练法则，属于先天不足。

梯度消失：

如果我们使用标准方法来初始化网络中的权重，那么会使用一个均值为0标准差为1的高斯分布。因此所有的权重通常会满足|wj|<1，而s‘是小于0.25的值，那么当神经网络特别深的时候，梯度呈指数级衰减，导数在每一层至少会被压缩为原来的1/4，当z值绝对值特别大时，导数趋于0，正是因为这两个原因，从输出层不断向输入层反向传播训练时，导数很容易逐渐变为0，使得权重和偏差参数无法被更新，导致神经网络无法被优化，训练永远不会收敛到良好的解决方案。这被称为梯度消失问题。

梯度爆炸：

当我们将w初始化为一个较大的值时，例如>10的值，那么从输出层到输入层每一层都会有一个s‘(zn)*wn的增倍，当s‘(zn)为0.25时s‘(zn)*wn>2.5，同梯度消失类似，当神经网络很深时，梯度呈指数级增长，最后到

最低0.47元/天解锁文章

真心乖宝宝

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
梯度消失与梯度爆炸的原因及解决方法

原因网络太深，网络权值更新不稳定造成的，本质上是因为梯度反向传播中的连乘效应当神经网络有很多层，每个隐藏层都使用Sigmoid函数作为激活函数时，很容易引起梯度消失或梯度爆炸问题当x较大或较小时，Sigmoid函数导数接近0；且导数的最大值是0.25梯度消失：如果我们使用标准方法来初始化网络中的权重，那么会使用一个均值为0标准差为1的高斯分布。因此所有的权重通常会满足|wj|<1，而s‘是小于0.25的值，那么当神经网络特别深的时候，梯度呈指数级衰减，导数在每一层至少会被压缩为原来的1
复制链接

扫一扫