[论文阅读]Language Modeling with Gated Convolutional Networks

最新推荐文章于 2024-04-28 15:30:54 发布

XMU_MIAO

最新推荐文章于 2024-04-28 15:30:54 发布

阅读量1.4k

点赞数

分类专栏：论文阅读文章标签：自然语言处理深度学习神经网络机器学习

本文链接：https://blog.csdn.net/zy_miao/article/details/109159534

版权

本文提出了一种基于门控线性单元的卷积网络方法用于语言建模，解决了循环神经网络的局限性，实现了并行化处理和高效捕获上下文信息。这种方法在WikiText-103和Google Billion Words基准数据集上表现出色，与循环模型相比，延迟降低了一个数量级，且在处理长距离依赖上效果良好。

摘要由CSDN通过智能技术生成

论文名：Language Modeling with Gated Convolutional Networks
论文作者：Yann N.Dauphin

∣

Angela Fan

∣

Michael Auli

∣

David Grangier
期刊/会议名：ICML 2017
本文作者：XMU_MIAO

摘要

目前语言建模的主要方法是基于循环神经网络（CNN），其在任务上的成功往往与其能够无限制捕获上下文信息的特性相关联。在本文中，我们开发出一种通过堆叠卷积实现的有限上下文方法，由于其能够在符号序列上并行化，因而更加高效。我们提出一种新的简单的门控机制，其性能优于Oord et al.(2016b)并研究了关键架构选择的影响。所提出的方法在WikiText-103基准数据集上取得了最先进的结果，同样地，在Google Billion Words（GBW）基准数据集上取得了具有竞争力的结果。相较于循环模型，我们的方法将评估句子的延迟降低了一个数量级。据我们所知，这是非循环方法首次在大规模语言任务上能够与强大的循环模型相抗衡。

文章贡献

1.提出一种基于线性门控单元（Gated Linear Units）的卷积网络并将其运用于语言建模。
GLU在保持一定非线性能力的同时通过为梯度提供线性的传播路径使得在深度架构中能够有效减少“梯度消失”的问题。

2.在GBW数据集上证明了该卷积网络性能优于其他语言模型：如LSTMs，并在段落数据集WikiText-103上验证了该模型处理长距离依赖（long-range depenencies）的能力。

3.证明了GLU比LSTM-style门控具有更高的准确度和更快的收敛速度。