NMT:神经网络机器翻译

前言 SMT是在神经网络之前最主流的翻译模式,统计机器翻译。 NMT则是基于神经网络的翻译模式,也是当前效果最好的翻译模式。现在基于几篇paper来讲解下各个神经网络下的翻译模型。 NMT based RNN NMT based CNN Reference...
摘要由CSDN通过智能技术生成
前言

  SMT是在神经网络之前最主流的翻译模式,统计机器翻译;NMT则是基于神经网络的翻译模式,也是当前效果最好的翻译模式。现在基于几篇paper来梳理下神经网络下的翻译模型。

NMT based RNN

1) First End-to-End RNN Trial
  2014年,Cho首次将End-to-End的RNN结构应用到翻译领域,是以统计机器翻译模型为主,但是用NMT训练得到的短语对,来给SMT作新增特征。另外也是GRU第一次被提出的paper,就是图结构有点糙,GRU的结构比LSTM要简单。看不动就看下面的图。


2) Complete End-to-End RNN NMT
   Properties of NMT是Learning Phrase的兄弟篇,也是Cho的同年佳作,首次以GRU和grConv【GRU的升级版本】实现End-to-End的NMT结构,并分析了NMT时的特性。
  a) NMT在句子长度增加是,效果下降得厉害。
  b) 词表长度对NMT有很大的影响。
  c) grConv的NMT可以在无监督的情况下,学习到目标语言的语法结构。
  其中对GRU和grConv【gated Recurrent Convolutional Network】的结构拆分非常有意思,如下图:

  2014年, Sutskever 首次实现完整意义上的end-to-end的LSTM版本的NMT模型,两个Deep LSTM分别做encoder 和 decoder,其中,反转输入(target不动)训练会提高翻译效果。

  具体操作部分,out-of-vocabulary 作UNKNOWN词,评估是用beam-search 。并行在8张GPU上,每层在一个卡上。使用了 4层Deep LSTM,堆叠的LSTM结构,整体数据集迭代次数在8次以内。并且根据句子长短对minibatch作了 优化,长度基本一致的在一个batch内,防止空转计算。用了个 类似clicp-gradient的约束梯度爆炸的技巧。
notice 1:这个方法很好,就是训练太耗时,需要 10天的时间。
notice 2:不是补充训练,而是就用反转直接训练。【反转训练效果好的非正式解释:引入了许多短期依赖】

3) attention in NMT
  这篇文章《NMT by Jointly Learning to Align and Translate》从14年就开始提交,7易其稿,一直到16年才完成最终版,看下作者Bahdanau和Cho,都是Bengio实验室的,已经产学研一条龙了。


  每个输入序列的词,都有个解释向量 hj h j ,其对当前预测词的贡献权重 α α 采用softmax方式计算,某个词对当前预测词的匹配度由 a a 来确定,所有输入序列中的词都通过 h 对注意力向量 c c 作贡献。
  好在有其他的研究文章可以来辅助确认模型细节, 强烈推荐这篇,给出了Attention的基本结构类型说明,其 开放源码。一个很好地 介绍Attention的博客,后面会作为翻译博客。另外专门写篇博客,讨论NMT by Jointly Learning 与Effective Approaches to Attention-based NMT 和Show and Tell, Neural Image Generation with Visual Attention。
notice 1: Attenttion是一种思想,并不是一种模型,有很多 变种attention方法Effective Approaches to Attention-based NMT,并且在翻译之外很多地方都有应用,比如 图像描述:《Show, Attend and Tell: Neural Image Caption Generation with Visual Attention》, 文本分类:《Hierarchical Attention Networks for Document Classification》, 关系分类:《Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification》。
notice 2: 非常需要吐槽下NMT by Jointly Learning这篇文章,看似写得很清晰,但是你根据论文内容是没法回答下面两个问题的:
   a) 为什么 α i j 不能直接model化 yi y i hj
  • 11
    点赞
  • 65
    收藏
    觉得还不错? 一键收藏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值