神经翻译笔记4扩展c. 2017-2019年间RNN和RNN语言模型的新进展

最新推荐文章于 2023-12-31 01:07:58 发布

TimsonShi

最新推荐文章于 2023-12-31 01:07:58 发布

阅读量848

点赞数

分类专栏：神经翻译笔记文章标签： lstm rnn

本文链接：https://blog.csdn.net/xacecaSK2/article/details/105646133

版权

本文回顾2017年至2019年间RNN和RNN语言模型的进展，包括QuasiRNN、FS-RNN、Skip RNN等结构的创新，旨在捕捉长距离依赖和提高计算效率。FS-RNN结合了多尺度和深度变换RNN的优点，Skip RNN通过学习跳过状态更新以减少操作，而MoS模型通过矩阵分解提高表示能力。此外，IndRNN解决了传统RNN的梯度问题，ON-LSTM利用有序神经元表达层次结构，Mogrifier LSTM增强了输入表示的上下文相关性。这些研究展示了RNN在应对长序列和增强理解能力方面的新方法。

摘要由CSDN通过智能技术生成

文章目录

神经翻译笔记4扩展c. 2017-2019年间RNN和RNN语言模型的新进展

神经翻译笔记4扩展c. 2017-2019年间RNN和RNN语言模型的新进展

尽管在本文写作时（2020年4月），基于Transformer结构的预训练语言模型已经大杀四方，BERT都已经成为明日黄花，在其基础上衍生的各种变体，例如RoBERTa、ALBERT、BART等等长江后浪推前浪，使得基于RNN的语言模型更不再是语言模型领域的焦点。但是为了系列文章结构的完备性，本文以及下一篇文章仍然会介绍一些这方面的“新”工作和一些里程碑式的工作。本文将介绍2017至2019三年间，RNN体系结构及基于RNN的语言模型的一些新进展。

QuasiRNN

本文实际上发表于2016年，而且采用了CNN的思想，因此先不在本文介绍。在这里先立个flag，等本系列笔记进行到6时，再概述此工作。采取同样思想的亦有SRU，准备也到时再介绍

FS-RNN

FS-RNN (Fast-Slow RNN) [Mujika2017] 受两类RNN的启发

多（时间）尺度RNN：对于堆叠RNN中更高层的若干层，其被更新的次数越少（更不频繁），以此来获得信息的分层表示。由于高层参数更新变慢，因此计算起来更高效，梯度更新路径越短，越能捕捉长距离依赖
深度变换RNN (deep transition RNN)，其相邻两个隐藏状态之间引入了新的顺序连接层，以此来增加两个时间步之间变换函数的深度，进而学习更复杂的非线性变换

FS-RNN将两类网络结合起来，最简单的方式是

对底层RNN，引入深度变换（若干顺序连接层），称为“快层”
对高层RNN，降低更新频率，称为“慢层”

更形式化地讲，底层在两个时间步之间插入 $k$ 个顺序连接的RNN神经元 $F_1, \ldots, F_k$ ，高层只使用一个神经元 $S$ 。 $F_1$ 接收第 $t$ 时间步的输入 $x_t$ ，将输出传给 $S$ 作为输入， $S$ 处理后将状态传给 $F_2$ ，然后从 $F_2$ 开始输出逐级传播下去，前一个 $F_{i-1}$ 的输出作为后一个 $F_i$ 的输入，到 $F_k$ 输出概率分布 $y_t$ ，如下图所示

FSRNN示意图，图中共有k个“快”RNN单元，其中只有第二个单元从“慢”单元接收输入

记每个RNN神经元 $Q$ 为一个可微函数 $f^Q(h,x)$ ，其将上一步的隐藏状态 $h$ 和输入 $x$ 一起映射为一个新的隐藏状态，则

$\begin{aligned} h_t^{F_1} &= f^{F_1}(h_{t-1}^{F_k}, x_t) \\ h_t^{S} &= f^{S}(h_{t-1}^{S}, h_t^{F_1}) \\ h_t^{F_2} &= f^{F_2}(h_{t}^{F_1}, h_t^S) \\ h_t^{F_i} &= f^{F_i}\left(h_t^{F_{i-1}}\right)\ \ {\rm for\ }3\le i \le k \\ y_t &= {\rm softmax}\left(Wh_t^{F_k}+b\right) \end{aligned}$

文章使用LSTM作为基础的RNN神经元，在Penn Treebank和enwik8上均取得了不错的效果

Skip RNN

传统RNN和普通的带门控的RNN（例如LSTM）对长句表现都不好。[Campos2017]的思路是让网络学习输入序列中哪些样本可以解决目标问题，因此可以在训练时跳过一些状态的更新，可以减少对序列的操作

记RNN接受的输入序列 $\boldsymbol{x} = (x_1, \ldots, x_T)$ ，每步向下传递的状态为 $\boldsymbol{s}=(s_1, \ldots, s_T)$ ，有

$s_t = {\rm RNN}(s_{t-1}, x_t)$

本文引入了一个额外的状态更新门 $u_t \in \{0,1\}$ ，该门是完全二值的，只输出0或1，不像LSTM或GRU那样输出一个0到1的浮点数。当 $u_t = 1$ 时，该时刻状态更新；当 $u_t = 0$ 时，该时刻从前一时刻直接拷贝状态。 $u_t$ 的结果由上一步产生的概率 $\tilde{u}_{t} \in [0,1]$ 决定，具体地

$\begin{aligned} u_t &= f_{\rm binarize}(\tilde{u}_t) \\ s_t &= u_t \cdot {\rm RNN}(s_{t-1}, x_t) + (1-u_t)\cdot s_{t-1} \\ \Delta \tilde{u}_t &= \sigma(\boldsymbol{W}_ps_t + \boldsymbol{b}_p) \\ \tilde{u}_{t+1} &= u_t \cdot \Delta\tilde{u}_t + (1-u_t)\cdot (\tilde{u}_t + \min(\Delta\tilde{u}_t, 1-\tilde{u}_t)) \end{aligned}$

其中 $\boldsymbol{W}_p$ 是权重， $\boldsymbol{b}_p$ 是偏置项， $\sigma$ 是sigmoid函数， $f_{\rm binarize}:[0,1] \rightarrow \{0,1\}$ 是将输入映射为0或1的函数，本文使用了四舍五入法（round），也可以从伯努利分布随机采样。模型隐含了一个信息：如果连续跳过的状态越多，那么下一个状态就更可能被更新：

如果当前状态被跳过，那么下一个时间步的“预激活值” $\tilde{u}_{t+1}$ 会增加 $\Delta \tilde{u}_t$
如果当前状态被更新，那么累积的“预激活值”清零，重置为 $\Delta \tilde{u}_t$

如果在某些场合下，可以为减少计算量额外牺牲精度，即为了让模型更倾向于少更新状态，则可以引入一个额外的损失项

$L_{\rm budget} = \lambda \cdot \sum_{t=1}^T u_t$

有趣的是，本工作的三项实验均未在NLP任务上进行

高秩RNN语言模型MoS

[YangZhilin2017]将语言模型看作是一个矩阵分解问题。文章将自然语言 $\mathcal{L}$ 定义为一个有限集合，集合中每个元素是一个有序对，由上下文和给定上下文后下一个标识符的分布两者组成，即

$\mathcal{L} = \{(c_1, P^\ast(X|c_1)), \ldots, (c_N, P^\ast(X|c_N))\}$

其中

最低0.47元/天解锁文章

TimsonShi

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
神经翻译笔记4扩展c. 2017-2019年间RNN和RNN语言模型的新进展

文章目录神经翻译笔记4扩展c. 2017-2019年间RNN的新进展QuasiRNNFS-RNN参考文献神经翻译笔记4扩展c. 2017-2019年间RNN的新进展尽管在本文写作时（2020年初），基于Transformer结构的预训练语言模型已经大杀四方，BERT都已经成为明日黄花，在其基础上衍生的各种变体，例如RoBERTa、ALBERT、BART等等长江后浪推前浪，使得基于RNN的语言模...
复制链接

扫一扫