二、RNN模型与 NLP应用 —— Simple RNN

地瓜你个大番薯

已于 2022-04-18 15:32:19 修改

阅读量1.1k

点赞数

分类专栏：学习记录文章标签： nlp 人工智能深度学习 python

于 2022-04-18 15:13:21 首次发布

本文链接：https://blog.csdn.net/weixin_43667730/article/details/124249621

版权

学习记录专栏收录该内容

9 篇文章 3 订阅

订阅专栏

二、RNN模型与 NLP应用 —— Simple RNN

前言
Simple RNN
LSTM

前言

FCN和ConvNet的限制: one-to-one模型, 一个输入对一个输出

一次性输入的是整个样本数据
固定输入和输出

RNN为 many-to-one 或者 many-to-many 输入和输出的长度不固定. RNN适合小规模问题可以, 大规模问题需要用Transformer.

Simple RNN

在这里插入图片描述
图1. Simple RNN结构. 初始节点的h输入是全0.

RNN每次看一个词, 用状态 $h_t$ 积累看过的信息. $x_t$ 为词向量, 将 $x_t$ 输入进RNN, RNN就会更新状态 $h$ . $h_0$ 包含了单词 “the”的信息, $h_1$ 包含了 “the”和“cat”的信息, … , 最后的状态 $h_t$ 包含了之前输入的所有信息. 可以把h_t看作整句话的特征向量.

RNN更新状态 $h$ 时, 用到了一个可学习参数矩阵 $A$ , 而这个参数矩阵 $A$ 从头到尾都在用, 只是内部参数通过训练数据被训练(初始化为随机值)

在这里插入图片描述
图2. $A$ 中的不同颜色表示矩阵是对应相乘的

上一个状态为 $h_{t-1}$ , 新的输入为词向量 $x_t$ , 将这两个向量拼接, 再与RNN参数矩阵 $A$ 相乘, 再用 $t a n h$ 激活函数对结果的每一个元素进行激活, 输出就是新的状态 $h_t∈(-1,1)$ .

在这里插入图片描述
图3. 新状态 $h_t$ 是输入 $x_t$ , 旧状态 $h_(t-1)$ 以及RNN参数A的函数

tanh激活函数的作用:
如果 $x_0=⋯=x_{100}=0$ , 则 $x_t$ 部分不起作用, 也就是矩阵 $A$ 的蓝色部分永远乘0. 所以 $h_{100}=Ah_{99}=A^2 h_{98}=⋯=A^{100} h_0$ , 这时如果A中的最大值 $λ_{max (A)}<1$ 则 $h_{100}≈0$ , 若 $λ_{max (A)}>1$ 则 $h_{100}→∞$ . 所以tanh的作用就是让 $A (h + x)$ 恢复到 $(- 1, 1)$ 中.

RNN的参数量:
矩阵 $A$ 的行数与 $h$ 同维, $A$ 的列数与 $h + x$ 同维. 所以RNN的参数总量为:
$s i z e (A) = s h a p e (h) * [s h a p e (h) + s h a p e (x)]$

在这里插入图片描述
图4. 输出所有状态 $h_i$

图5. 仅输出最后一个状态向量 $h_t$ . 再将 $h_t$ 输入到另外一个分类器中, 输出为 $sigmoid(V^T⋅h_t )∈(0,1)$ , 其中0为负面评价, 1为正面评价

Simple RNN:

from keras.models import Sequential # Sequential 为将神经网络的层按顺序搭起来
from keras.layers import SimpleRNN, Dense, Embedding
vocabulary = 10000  # all words number
embedding_dim = 32  # shape(x)=32
word_num = 500       # sequence length
state_dim = 32       # shape(h)=32

model = Sequential()
model.add(Embedding(vocabulary, embedding_dim, input_length=word_num))
model.add(SimpleRNN(state_dim,return_sequences=False))  
# return_sequences=True时用所有状态h_i, False时仅用最后一个状态h_t
model.add(Dense(1, activation='sigmoid')) # 仅输入最后一个状态ht, 输出(0,1)
model.summary()

在这里插入图片描述
图6. return_sequences=False时, RNN的总参数: $2080 = s h a p e (h) * [s h a p e (h) + s h a p e (x)] = 32 * (32 + 32) + 32 (偏置)$

在这里插入图片描述
图7. return_sequences=True时, 第二层输出将500单词的状态 $h_i$ 全部输出

from keras import optimizers
epochs = 10
model.compile(optimizer=optimizers.RMSprop(lr=0.001),
              loss='binary_crossentropy', metrics=['acc'])
history = model.fit(x_train, y_train, epochs=epochs,
                    batch_size=32, validation_data=(x_vaild, y_vaild))
loss_and_acc = model.evaluate(x_test, labels_test)

LSTM

在这里插入图片描述
图8. 短依赖句子预测

给定半句话, 想要预测下一个单词, 在短依赖句子中Simple RNN很容易预测出来. 但是在长依赖句子中效果不好.

在这里插入图片描述
图9. 长依赖

因为 $\dfrac{∂h_{100}}{∂x_1}≈0$ , 即更改了单词 $x_1$ , 不会对 $h_{100}$ 产生任何影响, 这是不合理的, 说明 $h_{100}$ 把 $x_1$ 给忘记了.

LSTM详情见: 链接: 三、RNN模型与 NLP应用 —— LSTM.

地瓜你个大番薯

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
二、RNN模型与 NLP应用 —— Simple RNN

二、RNN模型与 NLP应用 —— Simple RNN前言Simple RNNLSTM前言FCN和ConvNet的限制: one-to-one模型, 一个输入对一个输出一次性输入的是整个样本数据固定输入和输出RNN为 many-to-one 或者 many-to-many 输入和输出的长度不固定. RNN适合小规模问题可以, 大规模问题需要用Transformer.Simple RNN图1. Simple RNN结构. 初始节点的h输入是全0.RNN每次看一个词, 用状态hth_t
复制链接

扫一扫