1 简介
本文首次在机器翻译中引入注意力机制。本文根据2015年《NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE》翻译总结。看文章的标题,可以知道该模型改善了align(源语句与目标翻译语句的对齐),引入注意力机制进行align。
在本文之前,已经出现encoder-decoder神经网络进行机器翻译,不像以前传统的phrase-based translation system(2003),该神经网络尝试建立一个单独的、大的神经网络,直接读一个句子,然后输出正确的翻译。
encoder-decoder方法作为一种神经网络,需要将源语句的所有必要信息压缩到一个固定长度的向量。这就会导致该模型很难处理长的句子,尤其是当语句比训练时的还长时。
为此,我们扩展了encoder-decoder模型,取名RNNsearch,可以联合学习对齐和翻译。模型预测一个目标单词时,会基于和源位置相关的上下文向量,以及所有前面已预测的目标单词。
本模型和以前模型的最大区别是它不再尝试将整个输入语句编码成一个单独的固定长度的向量。它将输入语句编码成一系列向量,当解码时会自适应的选择其中的一部分向量。
本模型可以很好的处理长语句的翻译。首次引入了注意力机制。
2 标准RNN ENCODER–DECODER
3 本文模型,对齐和翻译
4.实验结果
RNNencdec代表以前的模型,RNNsearch是我们的模型。30、50代表训练时采用的句子长度。可以看到RNNsearch取得了很好效果,甚至RNNsearch-30都好于RNNencdec-50.
Moses是传统的 phrase-based translation system (Moses),非神经网络模型。
下图可以看出来我们的模型对于长句子可以处理的更好,尤其是RNNsearch-50.