RNN与LSTM

GreekinRoma

已于 2023-07-23 16:37:00 修改

阅读量108

点赞数

文章标签： rnn lstm 人工智能

于 2023-07-22 12:29:23 首次发布

本文链接：https://blog.csdn.net/weixin_45358930/article/details/131855978

版权

本文介绍了RNN的时间序列建模，包括不同类型的RNN结构和其缺陷，主要关注长期依赖问题。接着详细阐述了LSTM的工作原理，如细胞状态、遗忘门、记忆门、更新细胞状态和输出门，解释了LSTM如何通过这些机制克服RNN的梯度消失问题，有效保留长期信息。

摘要由CSDN通过智能技术生成

本文主要是https://www.bilibili.com/video/BV1QY411o7bw/?p=2&spm_id_from=pageDriver&vd_source=5b8b938e4901a16324db66c2ce7875f9，https://www.zhihu.com/tardis/zm/art/104475016?source_id=1005的笔记

1.时间序列模型

1.1 RNN

为了解决样本之间的影响。可以进行时间序列这些事情。
在这里插入图片描述
输入为t个数据，得到下一个数据。模型的输入格式是固定的。一般输入为[a,b,c]其中a是样本个数，b窗口宽度，c是输入数据的维度。

为什么要使用tanh方式，对累计的信息进行normalization

问题是没有对长期记忆进行处理。

1.1.2 多输入对多输出，维度相同RNN结构

在这里插入图片描述

1.1.2 多输入单输出RNN结构

在这里插入图片描述

1.1.3 单输入多输出RNN结构

在这里插入图片描述

1.1.4 多输出多输入且之间维度没有

在这里插入图片描述

1.1.5 普通RNN结构缺陷

前部序列信息在传递到后部的同时，信息权重下降，导致重要信息丢失。
在这里插入图片描述
需要提高前部特定信息的决策权重。

2. 长短期记忆网络

2.1 LSTM与RNN的关系

长短期记忆网络是一种特殊的RNN模型，其特殊的结构设计使得它可以避免长期依赖问题，记住很早时刻的信息是LSTM的默认行为，而不需要专门为此付出很大代价。普通的RNN模型中，其重复神经网络模型的链式模型如下图：
在这里插入图片描述
这个重复的模块只有一个非常简单的结构，一个单一的神经网络层，这样就会导致信息的处理能力比较低。而LSTM在此基础上将这个结构进行改进，不再是单一的神经网络层，而是4个，并且以一种特殊的方式进行交互。

2.1 LSTM的基本思想

LSTM的关键是细胞状态，表示为 $C_t$ ,用来保存当前LSTM的状态，并传递到下一时刻的LSTM中，也就是RNN中那根“自循环”的箭头。当前的LSTM接收来自上一个时刻细胞状态 $c_{t-1}$ ，并与当前LSTM接收的信号输入 $x_t$ 共同作用当前LSTM的细胞状态 $C_t$ ,具体的作用方式下面将详细介绍。
在LSTM中，采用专门设计的门来引入或者去除细胞状态 $C_t$ 中的信息。门是一种让信息选择性通过的方法。有点门跟信号处理了中的滤波器有点类似，允许信号部分通过或者通过时被门加工了；有的门也跟数字电路中的逻辑门类似，允许信号通过或者不通过。这里所采用的门包含一个sigmoid神经网络层和一个按位的乘法操作，如下图所示：
在这里插入图片描述
其中黄色方块表示sigmoid神经网络层，粉色圆表示按位乘法操作。sigmoid神经网络层可以将输入信号转换为0到1之间的数值，用来描述有多少两的输入信号可以通过。0表示"不允许任何量通过"，1表示"允许所有量通过"。sigmoid神经网路层起到sigmoid函数所示的作用。
在这里插入图片描述
忘记门：遗忘门由一个sigmoid神经网络层和一个按位乘操作构成，选择性丢弃 $a^{i-1}$ 与 $x^i$ 中不重要的信息
更新门：记忆门由输入门与tanh神经玩网络层和一个按位乘操作构成，确定给记忆细胞添加哪些信息
输出门与tanh函数以及按位乘操作共同作用将细胞状态和输入信号传递到输出端。

2.2 遗忘门

在LSTM的使用过程中，有一些信息不是必要的，因此遗忘门的作用就是用来选择这些信息并忘记它们。遗忘门决定了细胞状态中 $C_{t-1}$ 中的哪些信息将被遗忘。具体操作如下所示：
在这里插入图片描述
左边高亮的结构就是遗忘门，包含一个sigmoid神经网络层(黄色方框，神经网路参数为 $W_f,b_f$ )接收t时刻的输入信息 $x_t$ 和t-1时刻LSTM上一个输出信号 $h_{t-1}$ ，这两个信号进行凭借之后输入到sigmoid神经网络中，然后输出信号 $f_t$ ， $f_t$ 时一个0到1之间的数值，并与 $C_{t-1}$ 相乘决定 $C_{t-1}$ 中的哪些信息将保留，哪些信息将被舍弃。
假设 $c_{t-1}=[0.5,0.6,0.4],h_{t-1}=[0.3,0.8,0.9],x_t=[0.2,1.3,0.7]$ ,那么遗忘门的输入信号就是 $h_{t-1}$ 和 $x_t$ 的组合，即 $h_{t-1},x_t]=[0.3,0.6,0.69,0.2,1.3,0.7]$ ,然后通过sigmoid神经网络层输出每个元素都处于0到1之间的向量 $f_t=[0.5,0.1,0.8]$ ，注意，此时sigmoid圣经网络层输出每一个元素都处于0到1之间的向量 $f_t=[0.5,0.1,0.8]$ ,注意，此时 $f_t$ 是一个与 $c_{t-1}$ 维数相同的向量，此处为3维。

2.3 记忆门

记忆门的作用与遗忘门相反，它将决定输入的信息 $x_t$ 和 $h_{t-1}$ 中哪些信息将被保留。
在这里插入图片描述
如图苏轼，记忆们包含2个部分。一个是包含sigmoid神经网络层和一个tanh神经网络层。
sigmoid神经网络层的作用很明显，跟遗忘门一样，它接受 $x_t$ 和 $h_{t-1}$ 作为输入，然后输出一个0到1之间的数值 $i_t$ 来决定哪些信息需要被更新；
tanh神经网络层的作用是将输入的 $x_t$ 和 $h_{t-1}$ 整合，然后通过一个tanh神经网络层来创建一个新的状态候选向量 $\tilde{C_t}$ , $\tilde{C_t}$ 的值范围在-1到1之间。
记忆门的输出由上述两个神经网路层的输出决定， $i_t$ 与 $\tilde{C_t}$ 相乘来选择哪些信息将被新加入到t时刻的细胞状态C_t中。

2.4 更新细胞状态

在这里插入图片描述
这里将遗忘门的输出 $f_t$ 与上一时刻的细胞状态 $c_{t-1}$ 相乘来选择遗忘和保留一些信息，将记忆门的输出与从遗忘门选择后的信息加和德奥新的细胞信息 $C_t.$ 。这就表示t时刻的细胞状态 $C_t$ 已经包含了此时需要丢弃的t-1时刻传递的信息和t时刻从输入信号获取的需要新加入的信息 $i_t\times \tilde{C_t}$ 。 $C_t$ 将继续传递到t+1时刻的LSTM网络中，作为新的细胞状态传递下去。

2.5 输出门

在这里插入图片描述
如上面左图所示，输出门就是将t-1时刻传递过来并经过了前面遗忘门与记忆们选择后的细胞状态 $C_{t-1}$ ,与t-1时刻的输出信号 $h_{t-1}$ 和t时刻的输入信号 $x_t$ 整合大宋一起作为当前时刻的输出信号。整合的过程如上图所示， $x_t$ 和 $h_{t-1}$ 经过一个sigmoid神经网络层输出一个0到1之间的数值 $o_t$ 。 $C_t$ 经过一个tan函数到一个在-1到1之间的数值，并与 $o_t$ 相乘得到输出信号 $h_t$ ,同时 $h_t$ 也作为下一个时刻的输入信号传递到下一个阶段。