神经网络梯度消失和梯度爆炸及解决办法

最新推荐文章于 2024-07-20 17:43:09 发布

傻孩子

最新推荐文章于 2024-07-20 17:43:09 发布

阅读量4.9k

点赞数 1

梯度消失问题主要是由以下几个原因造成的：

（1） BP算法；（2）激活函数梯度小；（3）神经网络层数多

BP算法是神经网络中应用最成功的的计算方法，前向计算数值，向后传播误差；在传播误差的时候会更新BP中的参数，更新是通过梯度进行传播的，如果在求解梯度的过程中，梯度值一直很小就会造成整个误差传播变小，一般损失函数的梯度都不小，但是激活函数的梯度会比较小（一般0-1之间，并且小于1比较多）；如果神经网络的层数很多，也就是整个误差乘很多比较小的数会导致这个误差很小，这样就会造成梯度消失，梯度消失会造成误差值和真实值之间的差距没那么快的达到一致（收敛），这样就造成训练很难到到预期（需要训练很多轮），或者不能达到预期（消失的厉害基本上误差和真实值不能收敛）。

下面就依次回顾这些概念，以及详细讲解梯度消失的原因和如何解决梯度消失问题

BP算法

BP算法可以参考下面的文章https://blog.csdn.net/program_developer/article/details/80032376

，文章介绍的比较详细，这里只是说一下核心的思想，和主要步骤。

（1）主要思想

BP算法的基本思想是，学习过程由信号的正向传播与误差的反向传播两个过程组成。正向传播时，输入样本从输入层传入，经各隐层逐层处理后，传向输出层。若输出层的实际输出与期望的输出(教师信号)不符，则转入误差的反向传播阶段。误差反传是将输出误差以某种形式通过隐层向输入层逐层反传，并将误差分摊给各层的所有单元，从而获得各层单元的误差信号，此误差信号即作为修正各单元权值的依据。这种信号正向传播与误差反向传播的各层权值调整过程，是周而复始地进行的。权值不断调整的过程，也就是网络的学习训练过程。此过程一直进行到网络输出的误差减少到可接受的程度，或进行到预先设定的学习次数为止。

该思想依赖的数学依据是梯度和拉格朗日中值定理，误差为右侧部分，下图做了一下转化，通过图中的公式可以更新权值，细节大家可以见上文提到的博客。