阅读Antonio Gulli《Deep Learning with Tensorflow 2 and keras》Second Edition 第八章 RNN笔记
-
RNN和CNN是当下深度学习应用领域中的两大主流结构,CNN 在2012年就开始大行其道,而 RNN 的流行却要到2015年以后了
-
CNN 这种网络架构的特点之一就是网络的状态仅依赖于输入,而 RNN 的状态不仅依赖于输入,且与网络上一时刻的状态有关。因此,经常用于处理序列相关的问题
-
实际中前后之间往往存在联系,例如单词语义之间,股票价格变动等,如何提取特性表示这种关系?RNN设计隐藏侧由前一隐藏层和当层输入得到,从而实现前后间的联系
-
由于隐藏层结构的变化,在反向参数更新过程中,我们使用BPTT(Backpropagation through time)实现UWV参数更新
-
RNN结构存在梯度消失和梯度爆炸的问题,为了解决这一问题,提出了LSTM,这种结构在RNN基础上引入了ifog门(输入门、遗忘门、输出门,g gate),t-1时刻的隐藏层到t时刻的隐藏层需要经过ifog的处理
-
GRU是LSTM的变体,一方面保留了LSTM梯度消失的抵抗能力,另一方面简化了结构因此在训练和计算上速度更快。把LSTM的ifog门替换成zr门(the update gate z and the reset gate r),简化了LSTM的设计
-
Bidirectional RNNs是RNN的变体,RNN是单向的,BRNN是双向的
-
seq2seq又叫加密解密结构,顾名思义seq2seq是由一个加密器一个解密器组成的,加密器和解密器都是基于RNN。一般用于语言的翻译,加了attention机制后效果更佳
-
BLEU (其全称为Bilingual Evaluation Understudy),在自然语言处理中的机器翻译任务中BLEU非常常见, 它是用于评估模型生成的句子(candidate)和实际句子(reference)的差异的指标
-
自然语言翻译方面,Transformer architecture是一种新的神经网络结构,其仅基于注意力机制,抛弃了传统的循环或卷积神经网络结构,规避传统的神经网络结构存在着难以处理长期依赖和计算效率低等问题
名词:BPTT,BRNN,BLEU,GRU,LSTM