RNN的网络结构和参数更新方式

加油上学人

已于 2022-04-11 23:46:29 修改

阅读量1.8k

点赞数

分类专栏：机器学习文章标签： RNN RNN的网络结构和参数更新方式

于 2022-04-11 23:43:30 首次发布

本文链接：https://blog.csdn.net/weixin_45885232/article/details/124112359

版权

机器学习专栏收录该内容

11 篇文章 1 订阅

订阅专栏

1. RNN定义

RNN是处理时序问题的重要工具。对于一个 $x$ ，与一个 $U$ 计算后得到一个 $h$ ，这个 $h$ 与 $V$ 计算后得到输出 $o$ ， $h$ 与 $W$ 计算后的结果返回到 $h$ 的输入，由此形成了一个循环，这就是循环神经网络；

2. RNN参数更新方式

假设一个输入序列 $x$ = ${x_1,x_2,...,x_n}$ ，网络展开后看作一个 $n$ 层的前馈神经网络，第 $t$ 层对应者时刻 $t$ 的状态。记第 $t$ 层的输入状态、隐藏状态和输出状态分别为 $x_t$ ， $h_t$ , $o_t$ ,训练时的输出为 $y_t$ ，则有如下计算过程：
（1）隐藏状态
隐藏状态 $h_t$ 由当前时刻的输入状态 $x_t$ 和上一时刻的隐藏状态 $h_t$ 共同决定：
$h_t$ = $\sigma({Ux_t}+{Wh_{t-1}}+b)$
其中 $U$ 是输入层到隐藏层之间的权重矩阵， $W$ 是不同时刻的隐藏层之间的权重矩阵， $b$ 是偏置向量， $\sigma$ 是激活函数，此处通常使用 $t a n h (x)$ ；
（2）输出状态
输出状态 $o_t$ 的计算公式：
$o_t$ = $g(Vh_t+c)$
其中 $V$ 是隐藏层到输出层之间的权重矩阵， $c$ 是偏置向量， $g$ 是激活函数，在输出层通常使用 $s o f t m a x$ ;
（3）训练时的状态
在训练时，网络在整个序列上的损失函数可以如下定义：
$L$ = $\sum_{t}L_t$ = $\sum_{t}Loss(o_t,y_t)$
其中 $L_t$ 为 $t$ 时刻的损失， $L o s s (,)$ 为损失函数，通常使用交叉熵损失函数，交叉熵损失函数由信息熵计算而来，信息熵的定义如下：
$H (p, q)$ = $-\sum_{i=1}^{n}p(x_i)log(p(x_i))$
其中 $p(x_i)$ 为 $i$ 时刻的概率，可以看到这个值越大，事物越不稳定
交叉熵损失函数：
$L$ = $-[ylog\hat{y}+(1-y)log(1-\hat(y))]$

通过观察RNN的计算过程，可以发现整个过程在反复共享 $U$ , $V$ , $W$ 这三个权重矩阵，所有循环的参数也被反复使用，这样可以极大的减少参数量，并且可以根据序列时间步的不一样处理不同长度的序列。

3. RNN存在问题

RNN使用反向传播进行梯度下降。由于不同时刻的状态是相互依赖的，所以需要存储各个时刻的状态，这导致整个过程对内存的消耗很大，并且计算速度慢，同时，根据参数更新方式可知，位于序列后端的输入会异常大，如果激活函数得到的值小于1，则到了后面会有梯度消失，如果大于1，到了后面会有梯度爆炸，也把前面的信息给遗忘了。

如果你要转发或者引用，麻烦加上本文的链接。
转发：https://blog.csdn.net/weixin_45885232/article/details/124112359
引用：
RNN的网络结构和参数更新方式(2022-04-11)[EB\OL]https://blog.csdn.net/weixin_45885232/article/details/124112359