循环神经网络RNN公式推导

最新推荐文章于 2024-06-20 17:13:15 发布

置顶 z_hfut

最新推荐文章于 2024-06-20 17:13:15 发布

阅读量775

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/z_hfut/article/details/102533002

版权

机器学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

RNN公式推导

RNN介绍
前向计算
反向传播

RNN介绍

RNN(Recurrent Neural Network)，也称循环神经网络，是以序列为输入的神经网络，当前时刻的输出，不仅受当前时刻的输入影响，也受以前时刻输入的影响，因而该网络具有一定的记忆功能。RNN广泛应用于视频处理, 语言模型, 图像处理等领域，其结构图如下：

上图中 $x^{t}$ 表示t时刻的输入，U是输入到隐藏层的权重矩阵，V是隐藏层到输出的权重矩阵，W是连接两个相邻时刻隐藏层的权重矩阵，在各个时刻中，U,V,W都是共享的。

前向计算

RNN的前向计算过程比较简单，在介绍前向计算之前，我们先定义一些符号概念。下图是一个更详细一点的RNN示意图。

让我们假定输入输出层神经元的大小 $C = 5$ ，隐藏层的大小为 $H = 4$ ，则有：
$x^{(t)} \in R^{C \times 1} \\ U \in R^{H \times C} \\ s^{(t)} \in R^{H \times 1} \\ V \in R^{C \times H} \\ W \in R^{H \times H} \\ o^{(t)} \in R^{H \times1}\\ y^{(t)} \in R^{H \times 1}$
其中：
$\begin{aligned} s^{(t)} &=tanh( Ux^{(t)} + Ws^{(t-1)} + b_s) \hspace9ex &&(1.1)\\ a^{(t)} &= Ux^{(t)} + Ws^{(t-1)} + b_s \hspace9ex &&(1.2) \\ o^{(t)} &=softmax( Vs^{(t)} + b_o) =[ o^{(t)}_1, o^{(t)}_2,o^{(t)}_3,o^{(t)}_4,o^{(t)}_5] \hspace9ex &&(1.3)\\ z^{(t)} &= Vs^{(t)} + b_o = [ z^{(t)}_1, z^{(t)}_2,z^{(t)}_3,z^{(t)}_4,z^{(t)}_5 ] \hspace9ex &&(1.4) \end{aligned}$

$o^{(t)}_i = \frac{ exp(z^{(t)}_i) }{ \sum_j exp(z^{(t)}_j) } \hspace9ex (1.5)$
其中 $o^{(t)}_i$ 表示 $x^{(t)}$ 属于第 $i$ 个类别的概率， $\sum_j o^{(t)}_j =1$ ，有了上面的定义和前向传播，我们就可以使用反向传播来更新参数。在反向传播计算之前我们需要确定损失函数，RNN的损失函数是每个时刻的误差之和，我们希望总的误差最小。在神经网络的多分类模型中，我们一般使用softmax层与负对数似然损失。
$\begin{aligned} E &= \sum_t E_t \hspace9ex &&(1.6)\\ E_t &= - \sum_{i=1}^H y_i^{(t)} \log o_i^{(t)}=-\log o^{(t)}_{y_{(t)=1}} \hspace9ex &&(1.7) \end{aligned}$
其中 $o^{(t)}_{y_{(t)=1}}$ 表示，取 $o^{(t)}$ 中下标为 $y^{(t)}$ 中元素为1对应下标的位置，这句话简单的来说就是，如果 $y^{(t)}$ 中第2个元素的值为1，则取 $o^{(t)}_{y_{(t)=1}}=o^{(t)}_2$ ，注意 $y^{(t)}$ 是one-hot编码的向量， $y^{(t)}$ 中有且只有一个元素的值为1，其余的值全为0。

反向传播

RNN的反向传播算法是Backpropagation Through Time (BPTT)，它的基本原理和BP算法是一样的，可以分为下面三个步骤：

向计算每个神经元的输出值；
反向计算每个神经元的误差项 $\delta^{(t)}$ ；
计算每个权重的梯度，更新梯度。

$t$ 时刻的输出层第 $j$ 个神经元的误差项我们用 $\delta_{oj}^{(t)}$ 表示：
$\begin{aligned} \delta^{(t)}_{oj} &= \frac{ \partial E_t}{ \partial z^{(t)}_j } = \sum_{i=1}^C \frac{ \partial E_t}{ \partial o_i^{(t)} } \frac{ \partial o_i^{(t)} }{ \partial z^{(t)}_j } \\ &= - \sum_{i=1}^C \frac{ \partial \sum_{k=1}^H y_k^{(t)} \log o_k^{(t)} }{ \partial o_i^{(t)} } \frac{ \partial o_i^{(t)} }{ \partial z^{(t)}_j } \\ &= - \sum_{i=1}^C \frac{ y_i^{(t)} }{ o_i^{(t)} } \frac{ \partial o_i^{(t)} }{ \partial z^{(t)}_j } \hspace9ex &&(2.1) \end{aligned}$
对于式(2.1)当 $i = j$ 时：
$\begin{aligned} \frac{ \partial o_i^{(t)} }{ \partial z^{(t)}_j } &= \partial \left( \frac{ exp(z^{(t)}_j) }{ \sum_k exp(z^{(t)}_k) } \right) / \partial z^{(t)}_j \\ &= \frac{ [\sum_k exp(z^{(t)}_k) ] \boldsymbol{D} [exp(z^{(t)}_j)] - exp(z^{(t)}_j) \boldsymbol{D} [\sum_k exp(z^{(t)}_k) ]}{ [\sum_k exp(z^{(t)}_k) ]^2} \\ &= \frac{ [\sum_k exp(z^{(t)}_k) ] exp(z^{(t)}_j) - exp(z^{(t)}_j) exp(z^{(t)}_j) }{ [\sum_k exp(z^{(t)}_k) ]^2} \\ &= \frac{ exp(z^{(t)}_j) }{ \sum_k exp(z^{(t)}_k) } \frac{ \sum_k exp(z^{(t)}_k) - exp(z^{(t)}_j) }{ \sum_k exp(z^{(t)}_k) } \\ &= o_j^{(t)} (1- o_j^{(t)}) \hspace9ex &&(2.2) \end{aligned}$
对于式(2.1)当 $\ne j$ 时：
$\begin{aligned} \frac{ \partial o_i^{(t)} }{ \partial z^{(t)}_j } &= \partial \left( \frac{ exp(z^{(t)}_i) }{ \sum_k exp(z^{(t)}_k) } \right) / \partial z^{(t)}_j \\ &= \frac{ [\sum_k exp(z^{(t)}_k) ] \boldsymbol{D} [exp(z^{(t)}_i)] - exp(z^{(t)}_i) \boldsymbol{D} [\sum_k exp(z^{(t)}_k) ]}{ [\sum_k exp(z^{(t)}_k) ]^2} \\ &= \frac{ [\sum_k exp(z^{(t)}_k) ] *0 - exp(z^{(t)}_i) exp(z^{(t)}_j) }{ [\sum_k exp(z^{(t)}_k) ]^2} \\ &= -\frac{ exp(z^{(t)}_i) }{ \sum_k exp(z^{(t)}_k) } \frac{ exp(z^{(t)}_j) }{ \sum_k exp(z^{(t)}_k) } \\ &= - o_i^{(t)} o_j^{(t)} \hspace9ex &&(2.3) \end{aligned}$
综上，且 $y^{(t)}$ 是one-hot编码，有 $\sum_i y^{(t)}_i = 1$ ,所以输出层第 $j$ 个神经元的误差项 $\delta_{oj}^{(t)}$ ：
$\begin{aligned} \delta^{(t)}_{oj} &= - \sum_{i=1}^C \frac{ y_i^{(t)} }{ o_i^{(t)} } \frac{ \partial o_i^{(t)} }{ \partial z^{(t)}_j } \\ &= - \frac{ y_j^{(t)} }{ o_j^{(t)} } \frac{ \partial o_j^{(t)} }{ \partial z^{(t)}_j } - \sum_{i=1,i \ne j}^C \frac{ y_i^{(t)} }{ o_i^{(t)} } \frac{ \partial o_i^{(t)} }{ \partial z^{(t)}_j } \\ &= - \frac{ y_j^{(t)} }{ o_j^{(t)} } o_j^{(t)} (1- o_j^{(t)}) - \sum_{i=1,i \ne j}^C \frac{ y_i^{(t)} }{ o_i^{(t)} } (- o_i^{(t)} o_j^{(t)}) \\ &= y_j^{(t)} ( o_j^{(t)} -1 ) + \sum_{i=1,i \ne j}^C y_i^{(t)} o_j^{(t)} \\ &= \sum_{i=1}^C y_i^{(t)} o_j^{(t)} - y_j^{(t)} = o_j^{(t)} - y_j^{(t)} \hspace9ex &&(2.4) \end{aligned}$
式(2.4)式是输出层一个神经元的误差项，那么 $t$ 时刻整个输出层的误差项 $\delta^{(t)}_o$ 表示为：
$\delta^{(t)}_o = o^{(t)} - y^{(t)} \hspace9ex (2.5)$
计算了输出层的误差项，我们接下来看隐藏层神经元 $j$ 的误差项 $\delta_{hj}^{(t)}$ ，隐藏层神经元的误差项的计算比输出层稍微复杂些，分为两种情况：

在最后时刻 $T$ ，隐藏层神经元的误差项只来自于后一层(输出层)；
在中间时刻 $t$ ，隐藏层神经元的误差来自于后一层和下一时刻 $t + 1$ 隐藏层神经元的误差之和。

第一种情况，在最后时刻 $T$ ，隐藏层神经元误差项的计算：
$\begin{aligned} \delta^{(T)}_{hj} &= \frac{ \partial E_T}{ \partial a^{(T)}_j } = \sum_{i=1}^C \frac{ \partial E_T}{ \partial z_i^{(T)} } \frac{ \partial z_i^{(T)} }{ \partial a^{(T)}_j } \\ &= \sum_{i=1}^C \sum_{k=1}^H \frac{ \partial E_T}{ \partial z_i^{(T)} } \frac{ \partial z_i^{(T)} }{ \partial s^{(T)}_k } \frac{ \partial s_k^{(T)} }{ \partial a^{(T)}_j } \hspace9ex &&(2.6) \end{aligned}$
由式(1.1)： $s^{(t)} =tanh( Ux^{(t)} + Ws^{(t-1)} + b_s) = tanh(a^{(t)})$ 可得任意时刻 $t$ ：
$\begin{aligned} \frac{ \partial s_k^{(t)} }{ \partial a^{(t)}_j } &= \frac{ \partial tanh(a_k^{(t)}) }{ \partial a_j^{(t)} } = \begin{cases} 1-s_j^{(t)2} & \text{if $k=j$ } \\ 0 & \text{others} \end{cases} = I(k=j) (1-s^{(t)2}_j) \hspace9ex &&(2.7) \end{aligned}$
其中 $I (k = j)$ 是一个指示函数，条件 $k = j$ 为真时取1，否则取0。
由式(1.4)： $z^{(t)} = Vs^{(t)} + b_o$ 可得任意时刻 $t$ ：
$\begin{aligned} \frac{ \partial z_i^{(t)} }{ \partial s^{(t)}_k } &= \frac{ \partial V_{i \bullet}s^{(t)} + b_{oi} }{ \partial s^{(t)}_k } = V_{ik} \hspace9ex &&(2.8) \end{aligned}$
其中 $V_{i \bullet}$ 表示矩阵 $V$ 的第 $i$ 行。将式(2.7),(2.8)代入(2.6)得：
$\begin{aligned} \delta^{(T)}_{hj} &= \sum_{i=1}^C \sum_{k=1}^H \frac{ \partial E_T}{ \partial z_i^{(T)} } \frac{ \partial z_i^{(T)} }{ \partial s^{(T)}_k } \frac{ \partial s_k^{(T)} }{ \partial a^{(T)}_j } \\ &= \sum_{i=1}^C \frac{ \partial E_T}{ \partial z_i^{(T)} } \frac{ \partial z_i^{(T)} }{ \partial s^{(T)}_j } \frac{ \partial s_j^{(T)} }{ \partial a^{(T)}_j } \\ &= \sum_{i=1}^C \delta^{(T)}_{oi} V_{ij} (1-s^{(T)2}_j) \\ &= (1-s^{(T)2}_j) \sum_{i=1}^C \delta^{(T)}_{oi} V_{ij} \\ &= (1-s^{(T)2}_j) [V_{\bullet j}]^T \delta^{(T)}_o \hspace9ex &&(2.9) \end{aligned}$
第二种情况，在中间时刻 $t$ ，隐藏层的误差计算如下：
$\begin{aligned} \delta^{(t)}_{hj} &= \frac{ \partial E_t}{ \partial a^{(t)}_j } + \sum_{l=t+1}^T \sum_{k=1}^H \frac{ \partial E_l}{ \partial a_k^{(t+1)} } \frac{ \partial a_k^{(t+1)} }{ \partial a^{(t)}_j } \hspace9ex &&(2.10) \end{aligned}$
再计算时刻t之后各个时刻的隐藏层对当前时刻的影响：
$\begin{aligned} \sum_{l=t+1}^T \sum_{k=1}^H \frac{ \partial E_l}{ \partial a_k^{(t+1)} } \frac{ \partial a_k^{(t+1)} }{ \partial a^{(t)}_j } &= \sum_{k=1}^H \delta^{(t+1)}_{hk} \frac{ \partial a^{(t+1)}_k }{ \partial a^{(t)}_j } \\ &= \sum_{k=1}^H \delta^{(t+1)}_{hk} \frac{ \partial a^{(t+1)}_k }{ \partial s^{(t)}_j } \frac{ \partial s^{(t)}_j }{ \partial a^{(t)}_j } \\ &= \sum_{k=1}^H \delta^{(t+1)}_{hk} W_{kj} (1-s^{(t)2}_j) \\ &= [W_{\bullet j}]^T \delta^{(t+1)}_{h} (1-s^{(t)2}_j) \hspace9ex &&(2.11) \end{aligned}$
注意(2.11)中的第一个等号可能不太好理解， $\sum_{l=t+1}^T \frac{ \partial E_l}{ \partial a_k^{(t+1)} } =\delta^{(t+1)}_{hk}$ ,这是根据隐藏层误差项的定义：从结束时刻T到当前时刻t，每个时刻的 $E_t$ 关于加权输入 $a_k^{(t+1)}$ 的偏导数定义为 $\delta^{(t+1)}_{hk}$ 。将(2.11)代入(2.10)可得：
$\begin{aligned} \delta^{(t)}_{hj} &= (1-s^{(t)2}_j) [V_{\bullet j}]^T \delta^{(t)}_o + [W_{\bullet j}]^T \delta^{(t+1)}_{h} (1-s^{(t)2}_j) \hspace9ex &&(2.12) \end{aligned}$
综上，令 $\delta^{(T+1)}=\vec 0$ ，则对于任意时刻 $t$ 隐藏层神经元 $j$ 的误差项表达如下：
$\begin{aligned} \delta^{(t)}_{hj} &= (1-s^{(t)2}_j) [V_{\bullet j}]^T \delta^{(t)}_o + [W_{\bullet j}]^T \delta^{(t+1)}_{h} (1-s^{(t)2}_j) \hspace9ex &&(2.13) \\ \delta^{(t)}_{h} &= V^T \delta^{(t)}_o \odot (1-s^{(t)2}) + W^T \delta^{(t+1)}_{h} \odot (1-s^{(t)2}) \hspace9ex &&(2.14) \end{aligned}$
经过漫长的计算，现在已经将每个神经元的误差项计算出来了，下面将利用误差项计算梯度。 $V$ 只能通过影响当前时刻的输出来影响误差，而 $W$ 能影响当前时刻和以后各个时刻的输出。
$\begin{aligned} \frac{\partial E_t}{ \partial V_{ji} } &= \frac{\partial E_t}{ \partial z_j^{(t)} } \frac{\partial z_j^{(t)} }{ \partial V_{ji} } = \delta^{(t)}_{oj} s_i^{(t)} \hspace9ex &&(2.15) \\ \frac{\partial E_t}{ \partial W_{ji} } &= \sum_{l=t}^T \frac{\partial E_l}{ \partial a_j^{(t)} } \frac{\partial a_j^{(t)} }{ \partial W_{ji} } = \delta^{(t)}_{hj} s_i^{(t-1)} \hspace9ex &&(2.16) \\ \frac{\partial E_t}{ \partial U_{ji} } &= \sum_{l=t}^T \frac{\partial E_l}{ \partial a_j^{(t)} } \frac{\partial a_j^{(t)} }{ \partial U_{ji} } = \delta^{(t)}_{hj} x_i^{(t)} \hspace9ex &&(2.17) \\ \frac{\partial E_t}{ \partial b_{sj} } &= \sum_{l=t}^T \frac{\partial E_l}{ \partial a_j^{(t)} } \frac{\partial a_j^{(t)} }{ \partial b_{sj} } = \delta^{(t)}_{hj} \hspace9ex &&(2.18) \\ \frac{\partial E_t}{ \partial b_{oj} } &= \frac{\partial E_t}{ \partial z_j^{(t)} } \frac{\partial z_j^{(t)} }{ \partial b_{oj} } = \delta^{(t)}_{oj} \hspace9ex &&(2.19) \end{aligned}$
式(2.14)-(2.18)是各个时刻权重标量的的梯度，下面我们将其矢量化：

$\begin{aligned} \frac{\partial E_t}{ \partial V } &= \begin{bmatrix} \delta_{o1}^{(t)} s_1^{(t)} & \delta_{o1}^{(t)} s_2^{(t)} & \cdots & \delta_{o1}^{(t)} s_H^{(t)} \\ \delta_{o2}^{(t)} s_1^{(t)} & \delta_{o2}^{(t)} s_2^{(t)} & \cdots & \delta_{o2}^{(t)} s_H^{(t)} \\ \vdots & \vdots & \vdots & \vdots \\ \delta_{oC}^{(t)} s_1^{(t)} & \delta_{oC}^{(t)} s_2^{(t)} & \cdots & \delta_{oC}^{(t)} s_H^{(t)} \end{bmatrix} = \delta_o^{(t)} \otimes s^{(t)} = ( o^{(t)} - y^{(t)}) \otimes s^{(t)} \hspace9ex &&(2.20) \\ \frac{\partial E_t}{ \partial W } &= \begin{bmatrix} \delta_{h1}^{(t)} s_1^{(t-1)} & \delta_{h1}^{(t)} s_2^{(t-1)} & \cdots & \delta_{h1}^{(t)} s_H^{(t-1)} \\ \delta_{h2}^{(t)} s_1^{(t-1)} & \delta_{h2}^{(t)} s_2^{(t-1)} & \cdots & \delta_{h2}^{(t)} s_H^{(t-1)} \\ \vdots & \vdots & \vdots & \vdots \\ \delta_{hH}^{(t)} s_1^{(t-1)} & \delta_{hH}^{(t)} s_2^{(t-1)} & \cdots & \delta_{hH}^{(t)} s_H^{(t-1)} \end{bmatrix} = \delta_h^{(t)} \otimes s^{(t-1)} \\ &=[V^T \delta^{(t)}_o \odot (1-s^{(t)2}) + W^T \delta^{(t+1)}_{h} \odot (1-s^{(t)2})] \otimes s^{(t-1)} \hspace9ex &&(2.21) \\ \frac{\partial E_t}{ \partial U} &= \begin{bmatrix} \delta_{h1}^{(t)} x_1^{(t)} & \delta_{h1}^{(t)} x_2^{(t)} & \cdots & \delta_{h1}^{(t)} x_C^{(t)} \\ \delta_{h2}^{(t)} x_1^{(t)} & \delta_{h2}^{(t)} x_2^{(t)} & \cdots & \delta_{h2}^{(t)} x_C^{(t)} \\ \vdots & \vdots & \vdots & \vdots \\ \delta_{hH}^{(t)} x_1^{(t)} & \delta_{hH}^{(t)} x_2^{(t)} & \cdots & \delta_{hH}^{(t)} x_C^{(t)} \end{bmatrix} = \delta_h^{(t)} \otimes x^{(t)} \hspace9ex &&(2.22) \\ \frac{\partial E_t}{ \partial b_s } & = \delta^{(t)}_h \hspace9ex &&(2.23) \\ \frac{\partial E_t}{ \partial b_o } &= \delta^{(t)}_o \hspace9ex &&(2.24) \end{aligned}$
其中， $\otimes$ 表示外积， $\odot$ 表示点积即矩阵对应位置相乘。到此，RNN的公式推导结束。