ME-MD:一个有效的神经系统框架
具有多个编码器和解码器的机器翻译
Jinchao Zhang1 Qun Liu3,1 Jie Zhou2 1Key Laboratory of IntelligentInformation Processing, Institute of Computing Technology, CAS. 2Baidu Research- Institute of Deep Learning, Baidu Inc.,Beijing,China 3ADAPT Centre, School ofComputing, Dublin City University {zhangjinchao,liuqun}@ict.ac.cn, zhoujie01@baidu.com
Abstract
编码器-解码器神经框架非常广泛用于神经机器翻译(NMT)用一个编码器来表示源语句和一个解码器来生成目标词。翻译表现严重依赖于编码器和代的表示能力解码器的能力。为了进一步提高NMT,我们建议扩展原始编码器解码器框架到一个新颖的,它有多个编码器和解码器(ME-MD)。通过这样,多个编码器提取更多样化功能来表示源序列和多个解码器捕捉更复杂的翻译知识。我们提出的ME-MD框架便于集成异构编码器和多个深度和多个解码器类型。汉英翻译实验任务表明我们的ME-MD系统超越了最先进的NMT系统达2.1BLEU点并超过了基于短语的摩西7.38BLEU分。我们的框架是一般的,可以应用于其他序列来排序任务。
1 Introduction
编码器-解码器框架[Kalchbrenner和Blunsom,2013;Cho等人,2014;Sutskever等,2014]是广泛的用于神经机器翻译。在这个框架中,编码器将源语句压缩为分布表示和解码器生成目标词一个一个关于源代表。相比统计机器翻译(SMT),NMT模型翻译知识通过培训单一网络在端到端的风格和搭建几个骑子组件分开。提出了很多方法来增强NMT表现,如注意机制[Bahdanau等人,2015年;Luong等,2015a;Meng等人,2016],有效的联系[Zhou等,2016;吴等人,2016],覆盖模型[Tuetal。,2016],处理罕见词汇[Jeanetal。,2015;Luong等,2015b;Sennrich等,2016;Chung等人,2016],联合培训[Dongetal。,2015;Luong等,2016;
图1:建议的ME-MD框架的总体架构。
该体系结构由两个模块组成:M-Encoder和
M-解码器。 与编码器 - 解码器框架相比,MEMD
利用多个编码器和解码器。
Firat等,2016;ZophandKnight,2016],外部记忆[Wangetal。,2016]和句级训练[Shenetal。,2016年]。翻译表现严重依赖于来源编码器和目标的句子表示能力句子生成能力的解码器。为了进一步提高NMT,我们提出了一个名为“ME-MD”的新框架(多个编码器和多个解码器)“,这是利用多个编码器来表示源序列和多个解码器产生目标字。这些编码器和解码器被允许拥有不同的深度或多个类型。基本思想是多个编码器提供更全面的源代表和多解码器捕捉更复杂的翻译知识。我们实施几个ME-MD系统并进行实验在中英文翻译任务上。实验结果表明ME-MD系统的性能优于编码器-解码器基线大幅度增加。我们最好的系统超越了最先进的NMT系统由2.1BLEU点和超过短语为基础的摩西7.38BLEU点。我们也验证我们的方法从体系结构变化中获益更多而不是让网络越来越深入。虽然,我们在机器翻译任务上进行实验框架是一般的,可以应用于其他序列序列任务。
图2(a)是具有三个子编码器的多深度M编码器。 每个编码器有独特的深度。 源语句被压缩
分别将编码器和分布式表示法合并为一个,作为源句的综合表示。
(b)是具有一个基于GRU的编码器和一个基于CNN的编码器的多类型M编码器。 来自基于GRU的编码器的表示
和基于CNN的编码器组合成一个来表示源语句。
2神经机器翻译
我们简要介绍一下NMT架构[Bahdanau等人,2015]我们的系统建立在。形式上,给定一个来源句子x=x1,...,xm和目标句子y=y1,...,yn,NMT将翻译概率模拟为
这里
NMT系统主要由两部分组成:编码器和解码器。为了便于说明,我们归因于注意机制作为一个子组件解码器。编码器将源语句压缩成分配表示和解码器生成目标关于源代表的一个一个字,如
这里h是源代表。 yt的生成概率计算为
q是预测目标词的上下文,g(·)是a线性函数和st是解码器的隐藏状态代表翻译状态。注意力ct表示用于生成yt的相关源词并且被计算为对齐时源表示h的加权和方程(4)中所示的矢量αt,其中align(·)函数是a前馈网络与softmax归一化。
隐藏状态St更新为
其中f(·)是一个门控隐藏单元。
最近,实施了品种的关注机制
如
其中f1(·)和f2(·)是循环函数。 我们在我们的NMT系统中采用这种品种的关注机制。
3 ME-MD框架
我们的目标是通过整合多个编码器和解码器来增强NMT。 我们的直觉是,多个编码器提供全面的源代表和多个解码器捕捉复杂的翻译知识。
图3:具有三个解码器的多深度M解码器的架构。 解码器的深度分别为1,2和3。每个解码器都有独立的RNN参数和注意参数。 三个解码器的输出被组合并馈入sof tmax函数以预测目标词。
3.1一般架构
所提出的ME-MD框架由两部分组成:MEncoder和M解码器,如图1所示。MEncoder将源语句压缩为分布作为源代表和MDecoder的表示在字上生成目标句子源代表。与编码器-解码器中的单个编码器相比框架,M-Encoder允许多个编码器来表示源句子,分别。所有源代表结合起来构建最终的源代表。我们期望通过整合不同的编码器以获得更全面的来源表示句子。在M解码器中,包含多个解码器捕捉更复杂的翻译知识。解码器的输出结合在一起softmax层用于预测目标词。建议ME-MD框架可灵活地集成可变编码器和解码器,并可应用于其他序列进行排序任务。
3.2 M编码器
M-Encoder模块中的编码器可以具有多种深度和多类型。多深度M-Encoder结合了一对不同深度的编码器和多种类型的MEncoder利用不同类型的编码器。我们认为多深度编码器可以提供多种编码器源句的高层抽象。图2(a)展示了一种带有三个编码器的多深度M编码器深度分别是2,4和6。不失一般性,我们拿“编码器2”进行详细说明。我们利用从左到右的门控复发单位(LGRU)[Choetet2014],以正向压缩源序列和从右到左选通循环单元(RGRU)反向压缩源序列。不同方向的图层交替堆叠直接连接。输入后序列被堆叠的GRU层压缩到矢量o2={o21,...,o2m},门控单元用于组合原始词嵌入e(xi)和o2i 如:
其中Wxz,Woz,Wxh和Woh∈Rd×d是权重矩阵参数bz和bh∈Rd是偏置参数。对于方便地建立网络,我们设置词维并将隐藏的单元号码设置为相同的值d。三个编码器产生三个源代表作为
我们将这三种表示与前馈结合在一起网络为
其中Wh1,Wh2和Wh3∈Rd×d是权重矩阵参数,bz∈Rd是偏置参数。
图2(b)示出了具有两种类型的多类型M编码器的编码器压缩源语句。一个编码器是基于GRU的网络和另一个是基于CNN的网络。CNN编码器只有一个卷积层具有固定的窗口大小。GRU编码器捕获全球源代表和CNN编码器的重点当地代表。CNN编码器的输出是计算为
其中Wf∈Rd×P×d是权重矩阵参数,b是偏置参数和p是卷积窗口大小。门计算和最终源代表计算与多深度M-编码器相同。
3.3 M解码器
M解码器的目的是增强其生成能力解码器通过集成多个解码器。类似到M-编码器,M-解码器也可以有多个深度和多种类型。多深度M解码器组成一对不同深度的解码器。该多类型M解码器允许利用变量关注机制[Bahdanau等,2015;Luong等,2015a;吴等人,2016]和多个经常性网络。图3显示了一个包含多深度M解码器三个深度不同的解码器。我们拿“解码器2”详细描述而不失一般性。我们采用我们的NMT系统中的品种解码器实现。形式上,计算在时间t的“解码器2”的输出q2,t如下所示:
其中es21,t和es22,t是GRU层的输出,c2,t是用于生成目标词yt,函数的相关源上下文如式(4)计算注意力(·),函数g(·)是a线性的。门计算DGate2(es22,t,c2,t)是
其中z是更新门,r是复位门,Wcz,Wsz,Wcr,Wsr,Wss和Wcz是权重矩阵参数,bgz,bgr和bss是偏置参数。三个的输出解码器由前馈网络和feeded组合进入softmax函数来预测目标词为
其中Wq1,Wq2和Wq3是权重矩阵参数,bq是偏置参数。虽然我们提出了几类M编码器和本节中的M解码器,各种各样的编码器和解码器解码器可以融入我们的框架中,以实现其灵活性。
4实验
我们验证了提议框架的有效性中英文翻译任务。
4.1数据和指标
我们的汉英培训语料库包含1.25M的句子以27.9M中文从LDCcorpora2提取单词和34.5M英文单词。30K词汇涵盖大约97.7%和99.3%的字分别为中文和英文。我们选择NIST2002数据集作为验证集。NIST2003-2006被用作测试集。翻译质量评估指标是不区分大小写的4克BLEU3[Papineni等人,2002]。
4.2系统
我们实现了4个ME-MD系统并与之进行比较两个基线系统。 系统列举如下:
1. 摩西[Koehn等人,2007]是一个开源词组采用默认设置的SMT基准系统。话与GIZA++一致[OchandNey,2003]。该修改Kneser-Ney的4-gram语言模型对训练数据的目标部分进行平滑训练SRILM[Stolcke等,2002]。
2. RNNsearch*是我们内部实施的RNNsearch[Bahdanau等,2015]具有品种关注机制的基线系统。不同于原始模型,我们堆叠一个前向GRU层和一个直接连接为a的向后GRU层两层编码器。该系统可以被视为“1Encoders-1Decoder”是ME-MD系统的基础其他ME-MD系统。
3. 2Encoders-1Decoder获取两个基于GRU的编码器和一个基于GRU的解码器。编码器的深度分别是2和4。解码器的深度是1。
4. 3Encoders-1Decoder有三个基于GRU的编码器和一个基于GRU的解码器。编码器的深度分别是2,4和6。解码器的深度是1。
5. 3Encoders-3Decoders由三个基于GRU的编码器组成和三个基于GRU的解码器。深度编码器和解码器分别是2,4和6。
6. GCEncoders-1Decoders包含一个基于GRU的编码器和一个基于CNN的编码器。的深度基于GRU的编码器是2和卷积窗口基于CNN的编码器的大小是3.深度解码器是1。
4.3 NMT训练
训练NMT模型的句子长度可达50,而SMT模型没有使用整个训练数据限制。嵌入维度和隐藏单位数被设置为512.方阵被初始化以任意正交的方式。非正方形矩阵被初始化通过对来自高斯分布的每个元素进行采样平均值为0,方差为0.012。所有偏见都已初始化为0.参数由小批量梯度更新下降和学习率由AdaDelta[Zeiler,2012年]衰变常数ρ=0.95和分母常数?=1e-6.批次大小为80.退出策略[Srivastava等,2014]应用于输出层退出率=0.5以避免过度拟合。的梯度L2范数大于预定义的成本函数阈值1.0被归一化到阈值以避免梯度爆炸[Pascanu等,2013]。我们利用长度关于候选翻译的规范化以及关于词典的光束大小解码为12.该系统在Theano上实现图书馆并使用特斯拉K40GPU进行培训。
4.4实验结果
表1显示了每个系统的性能。该2Encoder-1Decoder系统和3Encoder-1Decoder系统超过RNNsearch*基线0.52和1.90BLEU点,从中我们得出结论,纳入额外的编码器可以有效提高NMT的性能。通过将解码器的数量扩展到三个,我们获得进一步证明0.43BLEU点证明了有效性的M解码器模块。GCEncoders-1解码器系统的性能优于RNNsearch*基准1.19BLEU分显示基于CNN的编码器改善了信号源M编码器的表示能力。GCEncoders1Decoders系统超过2Encoders-1Decoder系统0.67BLEU点表明基于CNN的编码器提供不同来源的代表。我们介绍以前使用的作品的表现表2中相同的训练语料库。虽然我们限制了句子的最大长度为50,我们的模型达到了所有测试装置都具有最先进的性能。我们的ME-MD系统至少2.1BLEU分胜过以前的工作。
表1:摩西NIST测试集03-06(默认设置),RNNsearch*上的BLEU-4得分(%)*(1编码器1解码器)和ME-MD系统(Id=3:6)与不同数量的编码器和解码器。括号中的值是RNNsearch*和摩西分别。该结果显示ME-MD系统在Moses和RNNsearch上取得重大进展*基线。
表2:与以前关于相同训练语料库的比较。覆盖范围是一个基本的RNNsearch模型,覆盖模型为缓解翻译和翻译问题。MEMDEC将通过外部存储器提高翻译质量。NMTIA利用可读和可写的注意机制来跟踪解码中的交互历史。所有工作的词汇量都是30K和句子的最大长度不同。我们的“3Encoders-3Decoders”系统大幅超越了以往的作品并且达到了最先进的表现。
4.5与更深和更宽的网络的比较
我们进行更多的实验来调查我们的方法通过制作神经来实现改进网络似乎越来越深。表3显示在更广泛的深层网络之间的性能比较ME-MD系统和图4展示了培训每个系统的速度。
•更宽的网络。我们扩大了嵌入维度这个词和隐藏的单元号码来建立网络更宽的。我们实现了0.79BLEU点的改进通过将宽度从512扩展到1024并进一步获得通过将宽度设置为更多0.32BLEU点2048.然而,这种方法导致了这种迅速增长参数和训练剧烈下降速度。与更广泛的网络相比,我们的方法使用更少的参数提供更大的改进节省大量的计算开销。
•更深的网络。随着深度的增加,RNNsearch*取得轻微改善甚至获得表现不佳。原因是这很困难为梯度传播培养非常深的网络问题。虽然我们的编码器和解码器也很深,我们仍然取得重大进展对于浅编码器是可以缓解的梯度传播问题。从速度实验来看,我们观察到ME-MD系统的速度主要取决于最深的编码器,并且接近于RNNsearch*拥有相同的深度。
图4:每个系统的训练速度。扩大宽度RNNsearch*导致训练速度快速下降。速度的ME-MD系统取决于其最深的编码器并且接近于RNNsearch*具有相同的深度。与更深的相比和更广泛的网络,ME-MD系统实现了显着的改进培训费用适度增加。
实验结果表明,我们的方法从有效的架构中受益更多而不仅仅是引入更多的参数和ME-MD系统在适度增加的情况下实现重大改善培训开销。
5相关工作
我们提出的ME-MD框架拥有多个编码器和解码器,这与多任务类似学习基于编码器-解码器的架构框架。董等人。[2015]提出了一个统一的网络一个编码器和多个解码器同时工作训练一对翻译系统。这些翻译系统共享源语句表示并生成以不同语言翻译目标。Luongetal人。[2016]提出了一个带有多个编码器的框架解码器用于多任务序列到序列学习。编码器和解码器专为多种特定应用而设计任务,如翻译,解析和图像标题。的Firat等人。[2016]提议分享关注机制共同培训多语种翻译系统,其中编码器和解码器用于某些语言。上面提到的作品只是激活一个编码器和一个解码器在处理某个任务或翻译时方向。在我们的框架中,所有的编码器和解码器同时使用,通过它翻译质量得到提高。多源翻译模型提出了多种编码器和注意机制由Zoph和Knight[2016]提供。一个编码器被应用于压缩一种源语言和所有编码器输出被组合以生成目标翻译。和....相比我们的工作,他们的方法需要多路平行语料库这很难获得。
表3:从系统1到系统3,我们放大单词嵌入维数和隐藏单元数量来构建更广泛的网络。尽管该方法提供了改进,但参数规模迅速增加,这导致严重的计算开销。我们的提出的ME-MD方法在较少参数增长的情况下提供更大的改进。比较系统1,4和5,更深的网络翻译质量略有提高,甚至表现不佳。
6 Conclusion
我们提出了一个名为“ME-MD”的有效框架利用多个编码器和解码器提高NMT性能。与编码器-解码器框架相比,我们的方法可以利用多个编码器和解码器具有可变的深度和类型。基本的想法是多重编码器提供更全面的表示源句子和多个解码器捕获更复杂的翻译知识。验证我们的方法的有效性,我们进行实验汉英翻译任务。我们训练了各种网络采用M-Encoder和M-Decoder模块的架构。实验表明,ME-MD系统取得了显着成效在基本的编码器解码器上翻译质量的改进系统和基于短语的系统。通过增加编码器的数量和类别和解码器,我们获得持续的改进。改进受益于结构变化原始建筑。与以前的作品进行比较在相同的训练语料库显示我们最好的模型实现最先进的表现。我们也实施了更广泛的网络,并发现扩大嵌入这个词而隐藏的大小可以进一步改善翻译质量。而更广泛的网络需要庞大的计算开销,这需要更长的训练时间和更大的时间GPU内存空间。具有更深层架构的网络不会产生可观的改进。随着增加实验表明翻译质量下降反之。与更广泛和更深的相比网络,我们的模型使不同的编码器和解码器从而导致翻译质量的提升较少计算开销。虽然,我们在机器翻译上进行了实验任务,ME-MD框架是通用的并且可以应用到其他序列来排序任务。该框架是一种增强神经网络的新方法性能。除此之外的实现纸张,可以引入更多类别的编码器和解码器进入框架。将来,我们会验证我们的探索更多的语言对并探索更有效的方法提高模型能力的方法。
致谢
刘群的工作得到了科学基金会的部分支持爱尔兰在ADAPT数字内容技术中心(www.adaptcentre.ie)在都柏林城市大学资助下SFI研究中心计划(Grant 13 / RC / 2106)由欧洲区域发展基金共同出资。我们感谢匿名审稿人的深刻见解注释。
References [Bahdanauet al., 2015] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. Neuralmachine translation by jointly learning to align and translate. In Proceedingsof ICLR2015, 2015. [Cho et al., 2014] Kyunghyun Cho, Bart Van Merrienboer, ¨Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Proceedings of theTwenty-Sixth International Joint Conference on Artificial Intelligence(IJCAI-17) 3397 Holger Schwenk, and Yoshua Bengio. Learning phraserepresentations using rnn encoder-decoder for statistical machine translation.arXiv preprint arXiv:1406.1078, 2014. [Chung et al., 2016] Junyoung Chung,Kyunghyun Cho, and Yoshua Bengio. A character-level decoder without explicitsegmentation for neural machine translation. In Proceedings of ACL2016, 2016.[Dong et al., 2015] Daxiang Dong, Hua Wu, Wei He, Dianhai Yu, and Haifeng Wang.Multi-task learning for multiple language translation. In ACL (1), pages1723–1732, 2015. [Firat et al., 2016] Orhan Firat, Kyunghyun Cho, BaskaranSankaran, Fatos T Yarman Vural, and Yoshua Bengio. Multi-way, multilingual neuralmachine translation. Computer Speech & Language, 2016. [Jean et al., 2015]Sbastien Jean, Kyunghyun Cho, Roland Memisevic, and Yoshua Bengio. On usingvery large target vocabulary for neural machine translation. In Proceedings ofACL2014, volume 1, pages 1–10, 2015. [Kalchbrenner and Blunsom, 2013] NalKalchbrenner and Phil Blunsom. Recurrent continuous translation models. InProceedings of EMNLP2013, pages 1700–1709, Seattle, Washington, USA, October2013. [Koehn et al., 2007] Philipp Koehn, Hieu Hoang, Alexandra Birch, ChrisCallison-Burch, Marcello Federico, Nicola Bertoldi, Brooke Cowan, Wade Shen,Christine Moran, Richard Zens, Chris Dyer, Ondrej Bojar, Alexandra Constantin,and Evan Herbst. Moses: Open source toolkit for statistical machine translation.In Proceedings of the ACL2007 Demo and Poster Sessions, pages 177–180, Prague,Czech Republic, June 2007. [Luong et al., 2015a] Minh-Thang Luong, Hieu Pham,and Christopher D. Manning. Effective approaches to attention-based neuralmachine translation. In Proceedings of EMNLP2015, Lisbon, Portugal, September2015. [Luong et al., 2015b] Minh Thang Luong, Ilya Sutskever, Quoc V. Le, OriolVinyals, and Wojciech Zaremba. Addressing the rare word problem in neuralmachine translation. Proceedings of ACL2015, 27(2):82–86, 2015. [Luong et al.,2016] Minh-Thang Luong, Quoc V. Le, Ilya Sutskever, Oriol Vinyals, and LukaszKaiser. Multi-task sequence to sequence learning. In International Conferenceon Learning Representations (ICLR), San Juan, Puerto Rico, May 2016. [Meng etal., 2016] Fandong Meng, Zhengdong Lu, Hang Li, and Qun Liu. Interactiveattention for neural machine translation. In Proceedings of COLING2016, 2016.[Och and Ney, 2003] Franz Josef Och and Hermann Ney. A systematic comparison ofvarious statistical alignment models. Computational linguistics, 29(1):19–51,2003. [Papineni et al., 2002] Kishore Papineni, Salim Roukos, Todd Ward, andWei-Jing Zhu. Bleu: a method for automatic evaluation of machine translation.In Proceedings of ACL2002, pages 311–318. Association for ComputationalLinguistics, 2002. [Pascanu et al., 2013] Razvan Pascanu, Tomas Mikolov, andYoshua Bengio. On the difficulty of training recurrent neural networks. ICML(3), 28:1310–1318, 2013. [Sennrich et al., 2016] Rico Sennrich, Barry Haddow,and Alexandra Birch. Neural machine translation of rare words with subwordunits. In Proceedings of ACL2016, pages 1715–1725, 2016. [Shen et al., 2016]Shiqi Shen, Yong Cheng, Zhongjun He, Hua Wu, Maosong Sun, and Yang Liu. Minimumrisk training for neural machine translation. In Proceedings of ACL2016, pages1683–1692, 2016. [Srivastava et al., 2014] Nitish Srivastava, Geoffrey EHinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdinov. Dropout: asimple way to prevent neural networks from overfitting. Journal of MachineLearning Research, 15(1):1929–1958, 2014. [Stolcke and others, 2002] AndreasStolcke et al. Srilm-an extensible language modeling toolkit. In Proceedings ofthe international conference on spoken language processing, volume 2, pages901–904, 2002. [Sutskever et al., 2014] Ilya Sutskever, Oriol Vinyals, and QuocV Le. Sequence to sequence learning with neural networks. In NIPS, 2014. [Tu etal., 2016] Zhaopeng Tu, Zhengdong Lu, yang Liu, Xiaohua Liu, and Hang Li. Modelingcoverage for neural machine translation. In Proceedings of ACL, pages 76–85,2016. [Wang et al., 2016] Mingxuan Wang, Zhengdong Lu, Hang Li, and Qun Liu.Memory-enhanced decoder for neural machine translation. In Proceedings ofEMNLP2016, 2016. [Wu et al., 2016] Yonghui Wu, Mike Schuster, Zhifeng Chen,Quoc V Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun, Yuan Cao, QinGao, Klaus Macherey, et al. Google’s neural machine translation system:Bridging the gap between human and machine translation. arXiv preprintarXiv:1609.08144, 2016. [Zeiler, 2012] Matthew D Zeiler. Adadelta: an adaptivelearning rate method. arXiv preprint arXiv:1212.5701, 2012. [Zhou et al., 2016]Jie Zhou, Ying Cao, Xuguang Wang, Peng Li, and Wei Xu. Deep recurrent modelswith fastforward connections for neural machine translation. In Proceedings ofEMNLP2016, 2016. [Zoph and Knight, 2016] Barret Zoph and Kevin Knight.Multi-source neural translation. In Proceedings of NAACL-HLT, pages 30–34,2016.