梯度消失与梯度爆炸

最新推荐文章于 2024-05-28 22:10:59 发布

方tongxue

最新推荐文章于 2024-05-28 22:10:59 发布

阅读量191

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/weixin_43824059/article/details/103494598

版权

深度学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

目前优化神经网络的方法都是基于反向传播的思想，即根据损失函数计算的误差通过梯度反向传播的方式，指导深度网络权值的更新优化。深度网络有很多非线性层堆叠

反向传播：（链式法则）
在这里插入图片描述

梯度消失与梯度爆炸形成的原因：
深度神经网络训练的时候，采用的反向传播方式，该方式背后其实是链式求导，计算每层梯度的时候会涉及一些连乘操作，因此如果网络过深，那么如果连乘的因子大部分小于1，最后乘积可能趋于0（梯度消失）；另一方面，如果连乘的因子大部分大于1，最后乘积可能趋于无穷（梯度爆炸）。

梯度消失：深层网络+不合适的损失函数 sigmoid:损失函数，其梯度是不可能超过0.25的，这样经过链式求导之后，很容易发生梯度消失
梯度爆炸：深层网络+权值初始值过大

解决方案：

预训练加微调
梯度剪切（强制限定梯度在某一个范围内）、正则（L1、L2正则）
（重点）Relu(用的最多)、leakrelu、elu等激活函数
- relu的优点：
  - 1）解决了梯度消失、爆炸的问题
  - 2）计算方便，计算速度快
  - 3）加速了网络的训练
- Relu的缺点：
  - 1）由于负数部分恒为0，会导致一些神经元无法激活（可通过设置小学习率部分解决）
  - 2）输出不是以0为中心的
- Leakrelu: leakrelu=max(k∗x,x), 其中k是leak系数，一般选择0.01或者0.02，或者通过学习而来
- leakrelu解决了0区间带来的影响，而且包含了relu的所有优点
- Elu
（重点）Batchnorm（BN）批规范化 具有加速网络收敛速度，提升训练稳定性的效果
正向传播中f_2=f_1 (w^T*x+b)，那么反向传播中，(∂f_2)/∂_x =(∂f_2)/(∂f_1 ) w，反向传播式子中有w的存在，所以w的大小影响了梯度的消失和爆炸，batchnorm就是通过对每一层的输出规范为均值和方差一致的方法，消除了w带来的放大缩小的影响，进而解决梯度消失和爆炸的问题，或者可以理解为BN将输出从饱和区拉倒了非饱和区。
残差结构：跨层连接

方tongxue

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
梯度消失与梯度爆炸

目前优化神经网络的方法都是基于反向传播的思想，即根据损失函数计算的误差通过梯度反向传播的方式，指导深度网络权值的更新优化。深度网络有很多非线性层堆叠梯度消失与梯度爆炸形成的原因：深度神经网络训练的时候，采用的反向传播方式，该方式背后其实是链式求导，计算每层梯度的时候会涉及一些连乘操作，因此如果网络过深，那么如果连乘的因子大部分小于1，最后乘积可能趋于0（梯度消失）；另一方面，如果连乘的因子大部...
复制链接

扫一扫

专栏目录