自然语言处理笔记总目录
一、认识RNN
一般单层神经网络结构:
RNN单层网络结构:
以时间步对RNN进行展开后的单层网络结构:
RNN的循环机制使模型隐层上一时间步产生的结果,能够作为当下时间步输入的一部分(当下时间步的输入除了正常的输入外还包括上一步的隐层输出)对当下时间步的输出产生影响
二、RNN模型的作用
因为RNN结构能够很好利用序列之间的关系,因此针对自然界具有连续性的输入序列,如人类的语言,语音等进行很好的处理,广泛应用于NLP领域的各项任务,如文本分类、情感分析、意图识别、机器翻译等
下面我们将以一个用户意图识别的例子进行简单的分析:
-
第一步:用户输入了"What time is it ?",我们首先需要对它进行基本的分词,因为RNN是按照顺序工作的,每次只接收一个单词进行处理
-
第二步:首先将单词"What"输送给RNN,它将产生一个输出O1
- 第三步:继续将单词"time"输送给RNN,但此时RNN不仅仅利用"time"来产生输出O2,还会使用来自上一层隐层输出O1作为输入信息
- 第四步:重复这样的步骤, 直到处理完所有的单词
- 第五步:最后,将最终的隐层输出O5进行处理来解析用户意图
三、RNN模型的分类
按照输入和输出的结构进行分类:
- N vs N - RNN
- N vs 1 - RNN
- 1 vs N - RNN
- N vs M - RNN
按照RNN的内部构造进行分类:
- 传统RNN
- LSTM
- Bi-LSTM
- GRU
- Bi-GRU
N vs N - RNN
它是RNN最基础的结构形式,最大的特点就是:输入和输出序列是等长的。由于这个限制的存在,使其适用范围比较小,可用于生成等长度的合辙诗句
N vs 1 - RNN
有时候我们要处理的问题输入是一个序列,而要求输出是一个单独的值而不是序列,应该怎样建模呢?我们只要在最后一个隐层输出h上进行线性变换就可以了,大部分情况下,为了更好的明确结果,还要使用sigmoid或者softmax进行处理. 这种结构经常被应用在文本分类问题上
1 vs N - RNN
如果输入不是序列而输出为序列的情况怎么处理呢?我们最常采用的一种方式就是使该输入作用于每次的输出之上。这种结构可用于将图片生成文字任务等
N vs M - RNN
这是一种不限输入输出长度的RNN结构,它由编码器和解码器两部分组成,两者的内部结构都是某类RNN,它也被称为seq2seq架构。输入数据首先通过编码器,最终输出一个隐含变量c,之后最常用的做法是使用这个隐含变量c作用在解码器进行解码的每一步上,以保证输入信息被有效利用
seq2seq架构最早被提出应用于机器翻译,因为其输入输出不受限制,如今也是应用最广的RNN模型结构。在机器翻译、阅读理解、文本摘要等众多领域都进行了非常多的应用实践
四、传统RNN模型
内部结构图:
结构解释图:
内部结构过程演示:
根据结构分析得出内部计算公式:
h
t
=
tanh
(
W
t
[
X
t
,
h
t
−
1
]
+
b
t
)
h_{t}=\tanh \left(W_{t}\left[X_{t}, h_{t-1}\right]+b_{t}\right)
ht=tanh(Wt[Xt,ht−1]+bt)
激活函数tanh的作用: 用于帮助调节流经网络的值,tanh函数将值压缩在-1和1之间
Examples:
import torch
from torch import nn
# 词嵌入维度(输入维度)、隐藏层神经元个数、隐藏层的层数
rnn = nn.RNN(10, 20, 2)
# 词序列长度(几个词)、批次大小、输入维度
input = torch.randn(5, 3, 10)
# 层数*bi、批次大小、输出维度(隐藏层神经元个数)
h0 = torch.randn(2, 3, 20)
output, hn = rnn(input, h0)
# output: 序列长度、批次大小、输出维度*bi
>>> output.size()
torch.Size([5, 3, 20])
# hn: 层数*bi、批次、输出维度(隐藏层神经元个数)
>>> hn.size()
torch.Size([2, 3, 20])
nn.RNN
参数解释:
参考链接:https://pytorch.org/docs/stable/generated/torch.nn.RNN.html?highlight=rnn#torch.nn.RNN