[论文阅读]Language Modeling with Gated Convolutional Networks

本文提出了一种基于门控线性单元的卷积网络方法用于语言建模,解决了循环神经网络的局限性,实现了并行化处理和高效捕获上下文信息。这种方法在WikiText-103和Google Billion Words基准数据集上表现出色,与循环模型相比,延迟降低了一个数量级,且在处理长距离依赖上效果良好。
摘要由CSDN通过智能技术生成


论文名:Language Modeling with Gated Convolutional Networks
论文作者:Yann N.Dauphin ∣ | Angela Fan ∣ | Michael Auli ∣ | David Grangier
期刊/会议名:ICML 2017
本文作者:XMU_MIAO

摘要

目前语言建模的主要方法是基于循环神经网络(CNN),其在任务上的成功往往与其能够无限制捕获上下文信息的特性相关联。在本文中,我们开发出一种通过堆叠卷积实现的有限上下文方法,由于其能够在符号序列上并行化,因而更加高效。 我们提出一种新的简单的门控机制,其性能优于Oord et al.(2016b)并研究了关键架构选择的影响。 所提出的方法在WikiText-103基准数据集上取得了最先进的结果,同样地,在Google Billion Words(GBW)基准数据集上取得了具有竞争力的结果。相较于循环模型,我们的方法将评估句子的延迟降低了一个数量级。据我们所知,这是非循环方法首次在大规模语言任务上能够与强大的循环模型相抗衡。

文章贡献

1.提出一种基于线性门控单元(Gated Linear Units)的卷积网络并将其运用于语言建模。
GLU在保持一定非线性能力的同时通过为梯度提供线性的传播路径使得在深度架构中能够有效减少“梯度消失”的问题。

2.在GBW数据集上证明了该卷积网络性能优于其他语言模型:如LSTMs,并在段落数据集WikiText-103上验证了该模型处理长距离依赖(long-range depenencies)的能力。

3.证明了GLU比LSTM-style门控具有更高的准确度和更快的收敛速度。

方法介绍


卷积网络通过堆叠,能够表示大量的上下文信息并且提取更为抽象的层次特征。本文的模型由L个 C o n v o l u t i o n + G a t i n g   B l o c k Convolution+Gating\, Block Convolution+GatingBlock(下称: B l o c k Block Block)堆叠而成,每一个Block的输出采用residual connection的方式将块输入加在块输出上,即:

B l o c k O u t p u t = B l o c k ( B l o c k I n p u t ) + B l o c k I n p u t BlockOutput=Block(BlockInput)+BlockInput BlockOutput=Block(BlockInput)+BlockInput如图所示,每一个

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值