梯度消失与梯度爆炸

目前优化神经网络的方法都是基于反向传播的思想,即根据损失函数计算的误差通过梯度反向传播的方式,指导深度网络权值的更新优化。深度网络有很多非线性层堆叠

反向传播:(链式法则)
在这里插入图片描述

梯度消失与梯度爆炸形成的原因:
深度神经网络训练的时候,采用的反向传播方式,该方式背后其实是链式求导,计算每层梯度的时候会涉及一些连乘操作,因此如果网络过深,那么如果连乘的因子大部分小于1,最后乘积可能趋于0(梯度消失);另一方面,如果连乘的因子大部分大于1,最后乘积可能趋于无穷(梯度爆炸)。

梯度消失:深层网络+不合适的损失函数 sigmoid:损失函数,其梯度是不可能超过0.25的,这样经过链式求导之后,很容易发生梯度消失
梯度爆炸:深层网络+权值初始值过大

解决方案:

  • 预训练加微调

  • 梯度剪切(强制限定梯度在某一个范围内)、正则(L1、L2正则)

  • ( 重点)Relu(用的最多)、leakrelu、elu等激活函数

    • relu的优点:
      • 1)解决了梯度消失、爆炸的问题
      • 2)计算方便,计算速度快
      • 3)加速了网络的训练
    • Relu的缺点:
      • 1)由于负数部分恒为0,会导致一些神经元无法激活(可通过设置小学习率部分解决)
      • 2)输出不是以0为中心的
    • Leakrelu: leakrelu=max(k∗x,x), 其中k是leak系数,一般选择0.01或者0.02,或者通过学习而来
    • leakrelu解决了0区间带来的影响,而且包含了relu的所有优点
      在这里插入图片描述
    • Elu
      在这里插入图片描述
      在这里插入图片描述
  • (重点)Batchnorm(BN)批规范化 具有加速网络收敛速度,提升训练稳定性的效果
    正向传播中f_2=f_1 (w^T*x+b),那么反向传播中,(∂f_2)/∂_x =(∂f_2)/(∂f_1 ) w,反向传播式子中有w的存在,所以w的大小影响了梯度的消失和爆炸,batchnorm就是通过对每一层的输出规范为均值和方差一致的方法,消除了w带来的放大缩小的影响,进而解决梯度消失和爆炸的问题,或者可以理解为BN将输出从饱和区拉倒了非饱和区。

  • 残差结构:跨层连接
    在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值