论文名:Language Modeling with Gated Convolutional Networks
论文作者:Yann N.Dauphin ∣ | ∣Angela Fan ∣ | ∣Michael Auli ∣ | ∣David Grangier
期刊/会议名:ICML 2017
本文作者:XMU_MIAO
摘要
目前语言建模的主要方法是基于循环神经网络(CNN),其在任务上的成功往往与其能够无限制捕获上下文信息的特性相关联。在本文中,我们开发出一种通过堆叠卷积实现的有限上下文方法,由于其能够在符号序列上并行化,因而更加高效。 我们提出一种新的简单的门控机制,其性能优于Oord et al.(2016b)并研究了关键架构选择的影响。 所提出的方法在WikiText-103基准数据集上取得了最先进的结果,同样地,在Google Billion Words(GBW)基准数据集上取得了具有竞争力的结果。相较于循环模型,我们的方法将评估句子的延迟降低了一个数量级。据我们所知,这是非循环方法首次在大规模语言任务上能够与强大的循环模型相抗衡。
文章贡献
1.提出一种基于线性门控单元(Gated Linear Units)的卷积网络并将其运用于语言建模。
GLU在保持一定非线性能力的同时通过为梯度提供线性的传播路径使得在深度架构中能够有效减少“梯度消失”的问题。
2.在GBW数据集上证明了该卷积网络性能优于其他语言模型:如LSTMs,并在段落数据集WikiText-103上验证了该模型处理长距离依赖(long-range depenencies)的能力。
3.证明了GLU比LSTM-style门控具有更高的准确度和更快的收敛速度。
方法介绍
卷积网络通过堆叠,能够表示大量的上下文信息并且提取更为抽象的层次特征。本文的模型由L个 C o n v o l u t i o n + G a t i n g B l o c k Convolution+Gating\, Block Convolution+GatingBlock(下称: B l o c k Block Block)堆叠而成,每一个Block的输出采用residual connection的方式将块输入加在块输出上,即:
B l o c k O u t p u t = B l o c k ( B l o c k I n p u t ) + B l o c k I n p u t BlockOutput=Block(BlockInput)+BlockInput BlockOutput=Block(BlockInput)+BlockInput如图所示,每一个