从RNN讲起(RNN、LSTM、GRU、BiGRU)——序列数据处理网络

薛定谔的猫ovo

已于 2024-10-13 16:20:16 修改

阅读量5k

点赞数 33

文章标签： rnn 人工智能深度学习

于 2024-10-12 17:31:55 首次发布

本文链接：https://blog.csdn.net/weixin_44162361/article/details/142861650

版权

文章目录

RNN（Recurrent Neural Network，循环神经网络）
LSTM（Long Short-Term Memory，长短期记忆网络）
GRU（Gate Recurrent Unit，门控循环单元）
BiGRU（双向GRU）
参考文献

RNN（Recurrent Neural Network，循环神经网络）

1. 什么是RNN？

循环神经网络是一类用于处理序列数据的神经网络，它一般以序列数据作为输入，通过网络内部的结构设计有效地捕捉序列之间的关系，以序列的形式输出。与传统的前馈神经网络不同，RNN具有"记忆"能力，通过在网络中引入循环连接，使得其可以利用先前的输入信息来影响当前的输出。这使得RNN非常适合处理具有时间依赖性或顺序性的任务。

2. 经典RNN的结构

在介绍RNN之前，需要先了解最基本的单层网络，结构如图所示：在这里插入图片描述

其含义是：输入 $x$ ，经过变换 $W x + b$ 和激活函数 $f$ ，得到输出 $y$ 。
常用激活函数主要有：在这里插入图片描述

在实际应用中，我们会遇到很多序列型的数据：在这里插入图片描述

以自言语言处理问题为例，简单来说，这可以看成是一句话， $x_1$ 可以看做是第一个单词， $x_2$ 可以看做是第二个单词，以此类推。

为了建模这种序列问题，RNN引入了 隐藏状态(hidden state) $h$ 的概念。隐状态 $h$ 可以对序列类型的数据提取特征，然后再转换为输出。

以 $h_1$ 的计算为例：在这里插入图片描述
其中：圆圈或方框表示的是向量，一个箭头就表示对该向量做一次变换 (例如上图中表示对 $h_0$ 和 $x_1$ 各做了一次变换)。

具体来说， $h_1$ 是基于上一个隐藏层的状态 $h_0$ 和当前的输入 $x_1$ 计算得到来的。泛化到任意时刻就是 $h_t = f(Wh_{t-1}+Ux_t+b_t)$ ，这里激活函数 $f$ 一般是tanh、sigmoid、ReLU等非线性激活函数。在实践中， $h_t$ 一般只包含前面若干步而不是所有步的隐藏状态。

$h_2$ 的计算与 $h_1$ 相似：在这里插入图片描述

计算时，每一步使用的参数U、W、b都是一样的，也就是说每个步骤的参数是共享的，这是RNN的重要特点。 而在LSTM中权重是不共享的。
那为什么RNN的权值是共享的呢？是因为RNN的权值是在同一个向量中，只是不同的时刻而已。【进一步解释权重共享，指的是 $x_i$ 在不同的时刻 $i$ 乘的一直都是 U， $h_i$ 在不同的时刻 $i$ 乘的一直都是 W。在 LSTM 中因为多出了门的概念，每个门对应的 W是不同的（即不同的门权重不共享），但是相同的门之间的 W 是共享的。】

依次计算剩下的（使用相同的参数U、W和b）：在这里插入图片描述

到此，我们得到了所有的隐藏状态 $h_1$ ， $h_2$ ， $h_3$ ， $h_4$ 。

RNN的输出通过隐藏状态进行计算：在这里插入图片描述

正如前面提到的，一个箭头就表示对向量做一次类似于 $f (W x + b)$ 的变换，这里箭头表示对 $h_1$ 进行一次变换，得到输出 $y_1$ 。
剩下的输出可以类似得到（使用相同的参数 V 和 c）：在这里插入图片描述

到此为止，得到了所有的输出，这就是经典的RNN结构，输入和输出序列是等长的。

通过上面的描述，我们知道RNN是包含循环的网络，在这个循环的结构中，每个神经网络的模块，读取到某个输入 $x_t$ ，并输出一个值 $y_t$ ，然后不断循环，使得信息可以从当前步传递到下一步。RNN可以被看做是同一神经网络的多次复制，每个神经网络模块会把消息传递给下一个，将这个循环展开：

在这里插入图片描述

链式的特征揭示了RNN本质上是与序列相关的，它们是对这类数据的最自然的神经网络架构。

3. RNN的主要特点

循环连接：RNN的核心在于它的循环连接，即网络的输出会作为下一个时间步的输入，这使得网络能够保持对之前信息的记忆。

参数共享：在RNN中，无论序列的长度如何，使用的权重和参数是共享的。

记忆能力：RNN能够记住序列中的信息，这使得它在处理时间序列数据、自然语言处理等领域表现出色。

4. RNN存在问题——长期依赖（Long-TermDependencies）问题

有时候，我们仅仅需要知道先前的信息来执行当前的任务。例如，我们有一个语言模型用来基于先前的词来预测下一个词。如果我们试着预测这句话中 “the clouds are in the sky” 最后的这个词 “sky”，我们并不再需要其他的信息，因为很显然下一个词应该是sky。在这样的场景中，相关的信息和预测的词位置之间的间隔是非常小的，RNN可以学会使用先前的信息。
在这里插入图片描述

但是同样会有一些更加复杂的场景。比如我们试着去预测 “I grew up in France…I speak fluent French” 最后的词 “French”。当前的信息建议下一个词可能是一种语言的名字，但是如果我们需要弄清楚是什么语言，我们是需要先前提到的离当前位置很远的 “French” 的上下文。这说明相关信息和当前预测位置之间的间隔就肯定变得相当的大。不幸的是，在这个间隔不断增大时，RNN会丧失学习到连接如此远的信息的能力。
在这里插入图片描述