梯度消失/爆炸产生的原因和解决方案

梯度消失/爆炸产生的原因

在进行反向传播的过程中,梯度会反向传播,当梯度很大,并且weight值大于1的时候,网络会产生梯度爆炸,反之weight值很小,网络会产生梯度消失。
下面从网络深度和激活函数角度进行解释:
(1)网络深度
若在网络很深的时候,若权重初始化很小,各层上的相乘得到的数值都会在0-1之间的小数,而激活函数梯度也是0-1之间的数,那么连乘后,结果数值会变得很小,导致梯度消失,若权重初始化大时,大到激活函数的导数都大于1,那么连乘后,可能会导致求导的结果很大,导致梯度爆炸
(2)激活函数
如果激活函数选择不合适,例如sigmoid,梯度消失就很明显了,原因看下图,左边为sigmoid函数图,右边为其导数图,如果使用sigmoid作为损失函数,其梯度时不可能超过0.25,这样经过链式求导之后,很容易发生梯度消失。
在这里插入图片描述

梯度消失/爆炸的解决方案

1.预训练加微调
此方法来自Hinton在2006年发表的一篇论文,Hinton为了解决梯度的问题,提出采取无监督逐层训练方法,其基本思想是每次训练一层隐节点,训练时将上一层隐节点的输出作为输入,而本层隐节点的输出作为下一层隐节点的输入,此过程就是逐层“预训练”(pre-training);在预训练完成后,再对整个网络进行“微调”(fine-tunning)。Hinton在训练深度信念网络(Deep Belief Networks中,使用了这个方法,在各层预训练完成后,再利用BP算法对整个网络进行训练。此思想相当于是先寻找局部最优,然后整合起来寻找全局最优,此方法有一定的好处,但是目前应用的不是很多了。
2.梯度裁剪
当梯度超过一定阈值,那么就将其强制限制在这个范围之内,这就可以防止梯度爆炸,另外解决一种梯度爆炸的手段就是权重正则化比较常见的时L1和L2正则化。
3.采用合适的激活函数
例如Relu,LeakyRelu等等
4.采用BN
5.残差结构
6.LSTM
LSTM全称是长短期记忆网络,是不那么容易发生梯度消失,主要原因在于LSTM内部复杂的门。在计算时,将过程中的梯度进行了抵消。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

liiiiiiiiiiiiike

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值