神经网络概念--梯度消失和梯度爆炸

最新推荐文章于 2024-11-13 10:31:18 发布

LuoBoBo_72

最新推荐文章于 2024-11-13 10:31:18 发布

阅读量877

点赞数 20

文章标签：神经网络人工智能深度学习卷积神经网络机器学习 python 分类

本文链接：https://blog.csdn.net/weixin_47628481/article/details/135461188

版权

梯度消失和梯度爆炸是深度学习中的两个常见问题，尤其是在训练深层神经网络时。它们都与网络权重的梯度有关，这些梯度是通过反向传播算法计算出来的，用于网络权重的更新。下面是对这两个现象的详细解释：

梯度消失 (Vanishing Gradient)

定义: 当梯度消失发生时，它指的是在深层网络中，梯度的值变得非常小，接近于零。这种现象通常发生在网络的较低层（靠近输入层的部分）。由于梯度非常小，权重的更新非常缓慢或几乎没有更新，这使得网络很难学习，尤其是难以学习到更深层次的抽象表示。

梯度更新公式：
$w_{ij}^{new} = w_{ij}^{old} - \eta \cdot \delta_j^k$
梯度公式：
$\delta_j^k = f'(net_j^k) \sum_{l}( w_{jl}^{k+1} \delta_l^{k+1} )$
向后传递的过程中由于系数小于1，因此可能产生逐步减小的梯度，逐渐造成梯度消失。
在这里插入图片描述

原因:

使用了不恰当的激活函数，如Sigmoid或Tanh，它们在输入值稍微大一点时就饱和，导致导数非常小。
网络架构问题，如过深的网络，会导致多层的连乘效应，使得梯度指数级减小。

梯度爆炸 (Exploding Gradient)

定义: 梯度爆炸与梯度消失相反，是指在训练过程中，梯度的大小急剧增加，变得非常大，以至于更新后的权重会变得非常大，导致网络模型无法收敛，学习失败。

原因:

网络层过多，梯度通过多层反向传播时累乘效应导致梯度急剧增大。
高学习率，使得梯度更新过于激烈。
不适当的权重初始化，特别是初始化权重过大。

应对策略

改进激活函数: 使用ReLU及其变种，如Leaky ReLU或ELU，它们不会在正区间饱和，可以缓解梯度消失问题。
权重初始化技巧: 如He初始化或Xavier初始化，这些方法可以帮助在训练开始时保持梯度在适当的范围内。
批量归一化（Batch Normalization）: 通过对每一层的输入进行归一化，可以保持激活分布的稳定，减少梯度消失和爆炸问题。
使用残差连接（Residual Connections）: 在网络中添加直接的前向连接，例如在ResNet架构中使用，可以帮助梯度直接流过一些层，缓解梯度消失问题。
梯度裁剪（Gradient Clipping）: 对梯度大小进行限制，确保它们不会变得过大，以避免梯度爆炸。