循环神经网络--LSTM（Long-Short Term Memory）与GRU（Gated Recurrent Unit ）

本文链接：https://blog.csdn.net/yeqiang19910412/article/details/75409110

本文介绍了LSTM（长短期记忆网络）和GRU（门控循环单元）的工作原理，这两种门控RNN旨在解决传统RNN的梯度消失问题。LSTM通过输入门、遗忘门和输出门控制信息流动，GRU则简化为重置门和更新门，两者在许多任务中表现相当，GRU由于参数更少，训练更快。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

LSTM

为了解决 Gradient Vanish 的问题，Hochreiter&Schmidhuber 在论文“Long short-term memory, 1997”中提出了 LSTM（Long Short-Term Memory）。原始的 LSTM 只有 Input Gate、Output Gate。而咱们现在常说的 LSTM 还有 Forget Gate，是由 Gers 在”Learning to Forget: Continual Prediction with LSTM, 2000”中提出的改进版本。后来，在”LSTM Recurrent Networks Learn Simple Context Free and Context Sensitive Languages, 2001”中 Gers 又加入了 Peephole Connection 的概念。同时，现在常用的深度学习框架 Tensorflow、Pytorch 等在实现 LSTM 上也有一些细微的区别。以上所说的虽然本质都是 LSTM，但结构上还是有所区别，在使用时需要注意一下。

下文介绍的 LSTM 是”Traditional LSTM with Forget Gates”版本。

LSTM结构图

LSTM 其实就是将 RNN 中 Hidden Layer 的一个神经元，用一个更加复杂的结构替换，称为 Memory Block。单个 Memory Block 的结构如下（图中的虚线为 Peephole Connection，忽略即可）

先对其中结构进行简要介绍：

Input Gate, Output Gate, Forget Gate：这三个 Gate 本质上就是权值，形象点则类似电路中用于控制电流的开关。当值为1，表示开关闭合，流量无损耗流过；当值为0，表示开关打开，完全阻塞流量；当值介于(0,1)，则表示流量通过的程度。而这种[0,1]的取值，其实就是通过 Sigmoid 函数实现的；
Cell：Cell 表示当前 Memory Block 的状态，对应于原始 RNN 中的 Hidden Layer 的神经元；
Activation Function：图中多处出现了 Activation Function（小圆圈+ sigmoid 曲线的图案），对这些 Activation Function 的选择有一个通用的标准。一般，对 Input Gate, Output Gate, Forget Gate，使用的 Activation Function 是 sigmoid 函数；对于 Input 和 Cell， Activation Function 使用 tanh 函数。

其具体公式如下：