Lecture 4_Extra Reccurrent Neural Network (RNN)

Yi_cAt

已于 2022-09-14 20:20:40 修改

阅读量235

点赞数 1

分类专栏： 2022 Spring 李宏毅ML 文章标签： rnn 深度学习机器学习

于 2022-09-14 20:18:27 首次发布

本文链接：https://blog.csdn.net/yi_cat/article/details/126859489

版权

2022 Spring 李宏毅ML 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

Lecture 4_Extra Recurrent Neural Network (RNN)

RNN

Example Application

Slot Filling

如上图所示，一些智能客服能够将一句话中的 “词语” 对应到相应的 slot 中。

要怎么做呢？可以将词语向量化后输入到一个网络中。

怎么将词语向量化呢？

1-of-N encoding

Beyond 1-of-N encoding

如下图所示，对于 feed forward 的网络来说，input 相同的东西，那么输出也会是相同的东西，而不会与上下文信息（比如，时间）相关联。—— 我们期待 neural network 有 “记忆” 的功能，能够记住不同的上下文，从而对相同的输入产生不同的输出。—— 引入 Reccurrent Neural Network (RNN)。

Recurrent Neural Network

Example

如上图所示，处理接收到的序列，先处理 $\begin{bmatrix}1\\1\end{bmatrix}$ 。

① 一些前提与基本假设；

② 处理 $\begin{bmatrix}1\\1\end{bmatrix}$ ；

③ 对 $m e m ory$ 设置处置 $0$ ；

④ 输入 $\begin{bmatrix}1\\1\end{bmatrix}$ ，经过处理得到 $2$ ，并存入 $m e m ory$ ；

⑤ 得到输出序列 $\begin{bmatrix}4\\4\end{bmatrix}$ 。

接下来，处理下一个 $\begin{bmatrix}1\\1\end{bmatrix}$ 。

$(1 + 2) + (1 + 2) = 6$ ；将 $6$ 存入 $m e m ory$ ； $6 + 6 = 12$ ；输出 $\begin{bmatrix}12\\12\end{bmatrix}$ 。

由此可见，即使 RNN 有相同的输入，也会得到不同的输出。改变输入顺序也会改变输出（这是显然的， $m e m ory$ 中的内容会改变）。

上文提到的[问题](#Slot Filling)，用 RNN 处理起来如下图所示。

Elman Network & Jordan Network

Bidirectional RNN

网络看过的范围更广。

Long Short-Term Memory (LSTM)

四个输入：操控 Input Gate、Output Gate、Forget Gate 和是否存入 Memory Cell 的信号；

只会有一个输出。

更新 Memory Cell 中的值 $c$ :

可以看出， $g (z)$ 是控制输入 $f(z_i)$ 是否有效的 “gate”（当 $g (z)$ 等于 $0$ 时，就相当于没有输入）。

$f(z_f)$ 决定了是否更新 memory cell 中的数值。当 $f(z_f)=1$ ，forget gate 开启， $c$ 直接通过，不更新 $c$ （也就是不遗忘 memory cell 中的内容）；当 $f(z_f)=0$ ，forget gate 关闭， $cf(z_f)=0$ ， $c'=g(z)f(z_i)+cf(z_f)$ ，进行更新（也就是遗忘了原 memory cell 中的内容）。

$f(z_0)$ 控制 Output Gate 的输出。

LSTM-Example

如上图所示，是一个模拟 LSTM 的简单例子。列出了一些规则（假设），并进行相应的 memory cell 和 output 的计算。

Learning Target

输入训练的语句，每个词语对应一个 slot（arrive、on 对应到 other，Taipei 对应到 destination，November、2nd 对应到 time）；经过 RNN 后得到输出 $y^{i}$ 与 $\text{reference vector}$ （长度为不同 slot 的个数，词语属于哪一个 slot，该 slot 的值就是 $1$ ）计算交叉熵损失（Cross-Entropy）。需要最小化的对象就是所有的交叉熵损失函数之和。

RNN 是可以利用 Gradient Descend 训练的，但训练过程较为困难。

我们期待训练过程如上图蓝线所示，但有时候会像绿线所示。RNN 的 $\text{error surface}$ 较为复杂：

当 $g r a d i e n t$ 超过某 $t h res h o l d$ 时，就不让 $g r a d i e n t$ 继续增加，而让 $g r a d i e n t$ 等于一个固定的（fixed）值（这就是所谓的 $c l i pp in g$ ）。

为什么训练 RNN 会存在如此大的波动呢？有人认为是 $\text{activation funciotn}$ 的问题，通常用 $R e LU$ 的效果不会很好，个人感觉李宏毅老师认为是梯度带来的问题🤔。下面是一个简单的例子，假设 input、output 的权重都是 $1$ ，memory cell 值传输到下个 neuron 的权重为 $w$ ，当 $1000$ 个 neuron 叠加后，对 $w$ 取值的简单讨论如下图所示，可以看出 $g r a d i e n t$ 的变化程度是非常大的。