从RNN到LSTM再到GRU

愤怒的可乐

已于 2022-05-11 16:11:53 修改

阅读量6.3k

点赞数 43

分类专栏：人工智能自然语言处理文章标签：深度学习 RNN GRU LSTM

于 2021-03-04 13:58:06 首次发布

本文链接：https://blog.csdn.net/yjw123456/article/details/114358298

版权

人工智能同时被 2 个专栏收录

182 篇文章 88 订阅

订阅专栏

自然语言处理

108 篇文章 111 订阅

订阅专栏

引言

今天把RNN、GRU和LSTM整理一下。
在这里插入图片描述

RNN

循环神经网络是处理时序数据的，它将序列按照顺序分成了很多时间步。在每个时间步，它的输入依赖于前一个时间步的输出(记忆单元)和当前的输入信息。废话不多说，直接上图，上公式。本文其实相当于一个整理，如何想看详细的介绍，建议看最后参考处的文章。

在这里插入图片描述
其中 $x_t$ 表示当前的输入， $h_{t-1}$ 表示前一个时刻的隐藏状态，初始为0向量。
$o_t$ 是当前时刻的输出， $h_t$ 是当前时刻的隐藏状态。

首选来看 $h_t$ 的计算：
$h_t = \tanh(W_{hh} h_{t-1} + W_{hx} x_t + b_h) \tag{1}$
即计算当前时刻隐藏状态的时候，同时考虑了输入 $x_t$ 和前一个时刻隐藏状态 $h_{t-1}$ 的信息。

为了更好的说明，假设 $W_{hh}$ 的大小是 $100 \times 100)$ ， $W_{hx}$ 的大小是 $100 \times 10000)$ ，隐藏状态 $h_{t-1}$ 的大小 $100 \times 1)$ ，输入 $x_t$ 的大小 $10000 \times 1)$ ，最后偏差 $b_h$ 的大小 $100 \times1)$ 。

$\underbrace{h_t}_\text{100,1} = \tanh( \underbrace{W_{hh}} _\text{100 ,100} \cdot \underbrace{h_{t-1}}_\text{100,1} + \underbrace{W_{hx}}_\text{100,10000} \cdot \underbrace{x_t}_\text{10000,1} + \underbrace{b_h}_\text{100,1})$

现在要做的事情是把上面这个公式描述简化，以便于理解和记忆。

把 $W_{hh}$ 和 $W_{hx}$ 按列叠加起来得 $W_h(100 \times 10100)$ ：

在这里插入图片描述
把 $h_{t-1}$ 和 $x_t$ 按行叠加起来得 $[h_{t-1},x_t](10100 \times 1)$ ：

在这里插入图片描述
这样，公式 $(1)$ 就可以写成：
$h_t = \tanh(W_h [h_{t-1},x_t] + b_h) \tag{2}$

本文后面也会一直按照这种写法来简化。

得到了 $h_t$ 之后，就可以计算 $o_t$ ：
$o_t = g(W_o h_t + b_o) \tag{3}$
这里的 $g$ 是激活函数，根据任务的不同可以用sigmoid或softmax。

RNN虽好，但是存在梯度消失和梯度爆炸的问题，导致一旦序列过长，在反向传播时RNN就会出问题。

其中梯度爆炸问题，有一个解决方法是梯度修剪(gradient clipping)，就是设定一个阈值，当梯度向量超过某个阈值时，将它减少到阈值。而梯度消失问题更难解决。因此有人提出了GRU来解决这个问题。

LSTM

LSTM是RNN的变种，是为了解决RNN存在的长期依赖问题而专门设计出来的。所谓长期依赖问题是，后面的单词在很长的时间序列后还依赖前面的单词，但由于梯度消失问题，导致前面的单词无法影响到后面的单词。

在这里插入图片描述
$x_t$ 是当前时刻的输入， $h_{t-1}$ 是上一个时刻的隐藏状态， $C_{t-1}$ 是上一时刻的单元状态。 $h_t$ 是当前时刻的隐藏状态， $C_t$ 是当前时刻的单元状态(记忆)。

相当于是LSTM会有两个输出。
其中输出 $h_t$ 是与当前的单元状态 $C_t$ 有关的，而 $C_t$ 是由前一时刻的单元状态 $C_{t-1}$ 和候选值 $\overset{\sim}{C}_t$ 有关的。因此我们先来看下候选值 $\overset{\sim}{C}_t$ 的计算公式：
$\overset{\sim}{C}_t = \tanh(W_c [h_{t-1},x_t] + b_c) \tag{4}$

这里的候选值和RNN的隐藏状态计算方法类似。当前单元状态受两个门控制，分别是遗忘门 $f_t$ 和输入门 $i_t$ 。

遗忘门：
$f_t = \sigma(W_f [h_{t-1},x_t] + b_f) \tag{5}$
使用sigmoid函数使得门的取值限定为[0,1]之间。
输入门：
$i_t = \sigma(W_i [h_{t-1},x_t] + b_i) \tag{6}$
其中，遗忘门用来控制内存中之前的单元状态 $C_{t-1}$ 是否会被遗忘掉，输入门决定候选值(哪些维度)能多大程度的存入当前单元状态 $C_t$ ：
$C_t = f_t * C_{t-1} + i_t * \overset{\sim}{C_t} \tag{7}$

基于当前单元状态 $C_t$ ，就可以得到当前时刻的隐藏状态 $h_t$ ：
$h_t = o_t * \tanh (C_t) \tag{8}$
其中 $o_t$ 是输出门，不难猜到，输出门也是由 $h_{t-1},x_t$ 计算而来的：
$o_t = \sigma(W_o [h_{t-1},x_t] + b_o) \tag{9}$

输出门控制了当前时刻能输出多少隐藏状态。

基于当前的隐藏状态，可以计算出当前时刻的输出 $\hat y_t$ ：
$\hat y_t = softmax(W_y h_t + b_y) \tag{10}$

Peephole LSTM

具有窥视孔连接的LSTM

在这里插入图片描述
其实很简单，就是让门也接受单元状态作为输入。

GRU

GRU 旨在解决RNN 中出现的梯度消失问题。GRU也可以被视为LSTM的变体，启发于LSTM，但更易于实现和计算，且在某些情况能产生同样出色的结果。

GRU把遗忘门和输入门合并成为一个“更新门”，把单元状态和隐藏状态合并，还有其他变化。这样做使得 GRU比标准的LSTM模型更简单。

在这里插入图片描述

$x_t$ 是当前时刻的输入， $h_{t-1}$ 是上一个时刻的隐藏状态， $h_t$ 是当前时刻计算出来的隐藏状态。
在计算当前时刻的隐藏状态时，它会首先计算一个候选状态 $\overset{\sim}{h}_t$ ，而在计算候选状态时，会考虑重置门的取值。
所以先来看重置门 $r_t$ 是如何计算的：
$r_t = \sigma(W_r [h_{t-1},x_t]) \tag{11}$
使用sigmoid函数使得门的取值限定为[0,1]之间。

一般这里可以不用考虑偏置，原论文中也没有偏置。

如果重置门近于0，当前候选值 $\overset{\sim}{h}_t$ 会忽略前一个隐藏状态 $h_{t-1}$ ，并用当前的输入 $x_t$ 来计算。这可以有效地让隐藏状态抛弃任何将来发现的不相关信息。来看一下候选值的计算公式：
$\overset{\sim}{h}_t = \tanh(W_h [r_t * h_{t-1},x_t]) \tag{12}$

可以看到，和RNN隐藏状态计算类似，不过多了一个重置门，重置门的大小和 $h_{t-1}$ 是一致的，*代表逐元素相乘。

计算出来候选值之后，通过更新门来控制前一个隐藏状态有多少信息可以传递到当前隐藏状态。这类似于LSTM的记忆单元，可以让GRU记住长期信息。
来看一下更新门的计算公式：
$z_t = \sigma(W_z [h_{t-1},x_t]) \tag{13}$
门的计算方法类似，不过权重矩阵不同。最后就可以计算当前时刻的隐藏状态了：
$h_t = (1-z_t) * h_{t-1} + z_t * \overset{\sim}{h}_t \tag{14}$