循环神经网络--RNN

最新推荐文章于 2024-09-28 11:47:12 发布

yeqiang19910412

最新推荐文章于 2024-09-28 11:47:12 发布

阅读量1.1k

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/yeqiang19910412/article/details/74570258

版权

深度学习专栏收录该内容

4 篇文章

订阅专栏

RNN是在自然语言处理领域中最先被用起来的，比如，RNN可以为语言模型来建模。语言模型是指：给定一个一句话前面的部分，预测接下来最有可能的一个词是什么。比如：

我昨天上学迟到了，老师批评了__。

利用RNN根据前面的信息推测出后面的词语。在上面例子中，接下来的这个词最有可能是『我』，而不太可能是『小明』，甚至是『吃饭』。

图1 RNN结构图

基本循环神经网络

下图是一个简单的循环神经网络如，它由输入层x、一个隐藏层s和一个输出层o组成：

图2 RNN结构简化图

x是一个向量，它表示输入层的值；s是一个向量，它表示隐藏层的值；o也是一个向量，它表示输出层的值；U是输入层到隐藏层的权重矩阵；V是隐藏层到输出层的权重矩阵。循环神经网络的隐藏层的值s不仅仅取决于当前这次的输入x，还取决于上一次隐藏层的值s。权重矩阵 W就是隐藏层上一次的值作为这一次的输入的权重。

把上面的图展开，循环神经网络如下图所示：

图3 RNN结构时间展开图

网络在t时刻接收到输入 $x_t$ ，隐藏层的值是 $s_t$ ，输出值是 $o_t$ ， $s_t$ 的值不仅仅取决于 $x_t$ ，还取决于 $s_{t-1}$ 。可以用下面的公式来表示循环神经网络的计算方法：

o t = g (V s t) (1)

$\begin{equation} o_t=g(V{s_t}) \tag{1} \end{equation}$

s t = f (U x t + W s t - 1) (2)

$\begin{equation} s_t=f(U{x_t}+W{s_{t-1}}) \tag{2} \end{equation}$

如果把公式2代入公式1中，可以得到：

o t = g (V s t) = g (V f (U x t + W s t - 1)) (1)

$\begin{equation} o_t=g(V{s_t}) =g(V{f(U{x_t}+W{s_{t-1}})}) \end{equation}$

= g (V f (U x t + W f (U x t - 1 + W s t - 2))) (2)

$\begin{equation} =g(Vf(U{x_t}+W{f(U{x_{t-1}}+W{s_{t-2}})})) \end{equation}$

= g (V f (U x t + W f (U x t - 1 + W f (U x t - 2 + W s t - 3)))) (3)

$\begin{equation} =g(Vf(U{x_t}+W{f(U{x_{t-1}}+W{f(Ux_{t-2}+Ws_{t-3})})})) \end{equation}$

= g (V f (U x t + W f (U x t - 1 + W f (U x t - 2 + W f (U x t - 3 + . . .))))) (3)

$\begin{equation} =g(Vf(U{x_t}+W{f(U{x_{t-1}}+W{f(Ux_{t-2}+W{f(Ux_{t-3}+...)})})})) \tag{3} \end{equation}$

从上面可以看出，循环神经网络的输出值 $o_t$ ，是受前面历次输入值 $x_t$ 、 $x_{t-1}$ 、 $x_{t-2}$ 、 $x_{t-3}$ 、……的影响。

双向循环神经网络

对于语言模型来说，很多时候光看前面的词是不够的，比如下面这句话：

我的手机坏了，我打算__一部新手机。

如果我们只看横线前面的词，手机坏了，那么我是打算维修还是换一部新的？这都无法确定。但如果我们看到了横线后面的词是『一部新手机』，那么，横线上的词填『买』的概率就大得多了。

基本循环神经网络是无法对此进行建模的，因此，我们需要双向循环神经网络来实现。如下图所示：

图4 双向循环神经网络

我们先考虑上图中 $y_2$ 的计算。从上图可以看出，双向卷积神经网络的隐藏层要保存两个值，一个A参与正向计算，另一个值A’参与反向计算。最终的输出值 $y_2$ 取决于 $A_2$ 和 $A_2'$ 。其计算方法为：

y 2 = g (V A 2 + V' A' 2) (4)

$\begin{equation} y_2=g(V{A_2}+V'{A'_2}) \tag{4} \end{equation}$

$A_2$ 和 $A_2'$ 则分别计算：

A 2 = f (W A 1 + U X 2) (5)

$\begin{equation} A_2=f(W{A_1}+U{X_2}) \tag{5} \end{equation}$

A' 2 = f (W' A' 3 + U' X 2) (6)

$\begin{equation} A_2'=f(W'{A_3'}+U'{X_2}) \tag{6} \end{equation}$

现在，我们已经可以看出一般的规律：正向计算时，隐藏层的值 $s_t$ 与 $s_{t-1}$ 有关；反向计算时，隐藏层的值 $s_t'$ 与 $s_{t-1}'$ 有关；最终的输出取决于正向和反向计算的和。双向循环神经网络的计算方法如下：

o t = g (V s t + V' s' t) (7)

$\begin{equation} o_t=g(V{s_t}+V'{s_t'}) \tag{7} \end{equation}$

s t = f (U x t + W s t - 1) (8)

$\begin{equation} s_t=f(U{x_t}+W{s_{t-1}}) \tag{8} \end{equation}$

s' t = f (U' x t + W' s' t + 1) (9)

$\begin{equation} s_t'=f(U'{x_t}+W'{s_{t+1}'}) \tag{9} \end{equation}$

其中 $x_t$ 表示输入层的值； $s_t$ 表示正向隐藏层的值； $s_t'$ 表示反向隐藏层的值； $o_t$ 表示输出层的值； $U$ 是输入层到正向隐藏层的权重矩阵； $V$ 是正向隐藏层到输出层的权重矩阵； $U'$ 是输入层到反向隐藏层的权重矩阵； $V'$ 是反向隐藏层到输出层的权重矩阵； $W$ 是隐藏层上一次的值 $s_{t-1}$ 作为这一次的输入的权重矩阵； $W'$ 是隐藏层下一次的值 $s_{t+1}$ 作为这一次的输入的权重矩阵。