神经网络学习笔记(三)——长短期记忆网络LSTM

最新推荐文章于 2025-04-26 23:14:21 发布

Storm*Rage

最新推荐文章于 2025-04-26 23:14:21 发布

阅读量7.2k

点赞数 10

本文链接：https://blog.csdn.net/weixin_43886056/article/details/108141853

版权

本文详细介绍了LSTM（长短期记忆网络），一种为解决RNN长期依赖问题而设计的特殊RNN结构。LSTM通过门控机制控制信息的流动，包括输入门、遗忘门和输出门，有效地解决了传统RNN的梯度消失问题。文章阐述了LSTM的模型结构、前向传播过程、反向传播算法，并探讨了Peephole Connection和Coupled LSTM的变体。LSTM在处理时间序列数据，如文本分类任务中表现出色，经过多轮训练，模型准确率可达到90%以上。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

长短期记忆网络 LSTM

文章目录

长短期记忆网络 LSTM

一、概述

长短期记忆网络——通常被称为LSTM，是一种特殊的RNN，能够学习长期依赖性。由Hochreiter和Schmidhuber（1997）提出，并且在接下来的工作中被许多人改进和推广。LSTM 在各种各样的问题上表现非常出色，现在被广泛使用。LSTM被明确设计用来避免长期依赖性问题。LSTM单元由单元，输入门，输出门和忘记门组成。该单元记住任意时间间隔内的值，并且三个门控制进出单元的信息流。

LSTM网络非常适合基于时间序列数据进行分类，处理和预测，因为在时间序列中的重要事件之间可能存在未知持续时间的滞后。开发LSTM是为了处理在训练传统RNN时可能遇到的爆炸和消失的梯度问题。对于间隙长度的相对不敏感性是LSTM相对于RNN，隐马尔可夫模型和其他序列学习方法在许多应用中的优势。

二、背景

传统RNN的关键点之一就是他们可以用来连接先前的信息到当前的任务上，例如使用过去的视频段来推测对当前段的理解。但是会有一些复杂的场景。上下文距离预测词较远，即相关信息和当前预测位置之间的间隔相当的大，在这个间隔不断增大时，传统RNN会丧失学习到连接如此远的信息的能力。

循环神经网络中的LSTM可以解决这种问题，即长短期记忆网络。LSTM引入了门（gate）机制用于控制特征的流通和损失，其中输入门用来接受近期有用的信息，遗忘门用来对久远的、无用的信息选择性的遗忘，输出门的输出为根据当前状态决定的输出。可以解决RNN无法处理长距离的依赖的问题。

三、LSTM原理

3.1 模型结构

原始RNN的隐藏层只有一个状态h，对于短期的输入非常敏感。LSTM再增加一个状态c，用来保存长期的状态，称为单元状态(cell state)。
在这里插入图片描述

在 $t$ 时刻，LSTM的输入有三个：

当前时刻网络的输入值 $x_t$
上一时刻LSTM的输出值 $h_{t-1}$
上一时刻的单元状态 $c_{t-1}$

LSTM的输出有两个：

当前时刻LSTM输出值 $h_t$
当前时刻的单元状态 $c_t$

在LSTM模型结构中，采用门(gate)来控制长期状态，在一层模型里有三个门，分别作用为：

负责控制继续保存长期状态 $c$
负责控制把即时状态输入到长期状态 $c$
负责控制是否把长期状态 $c$ 作为当前的LSTM的输出

gate实际上就是一层全连接层，输入是一个向量，输出是一个0到1之间的实数向量。公式为： $\sigma(Wx+b)$

3.2 前向传播

LSTM每个模块中的具体结构如下：
在这里插入图片描述

遗忘门（forget gate）：决定了上一时刻的单元状态 $c_{t-1}$ 如何保留到当前时刻 $c_t$ 。
在这里插入图片描述

遗忘阶段是对上一个节点传进来的输入进行选择性忘记。简单来说就是会 “忘记不重要的，记住重要的”。

具体来说是通过计算得到的 $f_t$ （f表示forget）来作为遗忘门控，来控制上一个状态的 $c_{t-1}$ 的忘记的概率。
$f_t = \sigma(W_f·[h_{t-1},x_t]+b_f)$

输入门（input gate）：决定了当前时刻网络的输入 $x_t$ 如何保存到单元状态 $c_t$ 。
在这里插入图片描述

这个阶段确定什么样的新信息被存放在细胞状态中。这里包含两个部分：1）sigmoid层为 “输入门层” ，主要对输入 $x_t$ 进行选择记忆。2）tanh层创建一个新的候选值向量 $\tilde{C}_t$ ，加入到状态中。
$i_t = \sigma(W_i·[h_{t-1},x_t]+b_i)$

$\tilde{C}_t = \tanh(W_C·[h_{t-1},x_t]+b_C)$

细胞更新（Update Cell）：决定了如何计算当前序列下的细胞值 $C_t$ 。
在这里插入图片描述

新的细胞状态由两部分组成，1）旧细胞 $C_{t-1}$ 与 $f_t$ 相乘，丢弃掉之前序列的信息；2）新的候选值 $\tilde{C}_t$ 与比例系数 $i_t$ 的积，保留当前的输入信息。
$C_t = f_t \odot C_{t-1} + i_t \odot \tilde{C}_t$
其中， $\odot$ 为Hadamard积

输出门（output gate）：控制单元状态 $C_t$ 有多少输出到LSTM的当前输出值 $h_t$ 。
在这里插入图片描述

隐藏状态 $h_t$ 的更新由两部分组成：1） $o_t$ , 它由上一序列的隐藏状态 $h_{t−1}$ 和输入数据 $x_t$ 构成，通过激活函数sigmoid进行过滤；2）由隐藏状态 $C_t$ 和tanh函数构成，tanh将 $C_t$ 处理得到一个在 $(- 1, 1)$ 之间的值，然后将其与sigmoid门相乘得到 $h_t$ 。
$o_t = \sigma(W_o·[h_{t-1},x_t]+b_o)$

$h_t = o_t \odot \tanh(C_t)$

最低0.47元/天解锁文章