【神经网络】LSTM为什么能缓解梯度消失

最新推荐文章于 2025-04-22 16:07:48 发布

DonngZH

最新推荐文章于 2025-04-22 16:07:48 发布

阅读量9.2k

点赞数 6

分类专栏：深度学习文章标签：神经网络 lstm 深度学习

本文链接：https://blog.csdn.net/weixin_44750512/article/details/128855451

版权

深度学习专栏收录该内容

75 篇文章

订阅专栏

LSTM通过细胞状态的加法更新和门控单元来缓解梯度消失问题。遗忘门和输入门控制信息流，细胞状态允许长期依赖的保存，输出门则决定何时输出信息。这种设计使LSTM能学习到何时遗忘梯度，何时保留，从而处理长序列数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.LSTM的结构

我们先来看一下LSTM的计算公式：

1.遗忘门：

2.输入门：

3.细胞状态

4.输出门

2.LSTM的梯度路径

根据LSTM的计算公式，可以得出LSTM的cell state与 $f_{t}$ 、 $\tilde{C_{t}}$ 、 $i_{t}$ 都存在计算关系，而 $f_{t}$ 、 $\tilde{C_{t}}$ 、 $i_{t}$ 的计算公式又全部都与 $C_{t-1}$ 有关，所以从 $C_{t}$ 到 $C_{t-1}$ 的反向传播的公式如下：

由LSTM各个门的计算公式可以进一步推导得到:

根据公式，如果要计算时刻k的,简单的利用上式进行乘t-k+1次即可。在公式中的 $f_{t}$ ，也就是遗忘门可以控制 $\frac{\partial C_{t}}{\partial C_{t-1}}$ 的值。由于 $\frac{\partial C_{t}}{\partial C_{t-1}}$ 的值也与 $f_{t}$ 前面三项值有关，所以 $\frac{\partial C_{t}}{\partial C_{t-1}}$ 的值不一定局限于[0,1]，也有可能是大于1的，所以在一定程度上减缓了梯度消失。从计算公式角度来看， $f_{t}$ 、 $i_{t}$ 、 $o_{t}$ 与 $\tilde{C_{t}}$ 都是LSTM学习得到的，LSTM会通过学习改变门控的值来决定什么时候遗忘梯度，什么时候保留梯度，即依靠学习得到权值去控制依赖的长度。