ICLR2018 无监督翻译学习 UNSUPERVISED NEURAL MACHINE TRANSLATION-CSDN博客

本文链接：https://blog.csdn.net/yellow_red_people/article/details/90726595

UNSUPERVISED NEURAL MACHINE TRANSLATION

INTRODUCTION

句子L1和L2使用共同的encoder模型，拥有各自的decoder模型,学习过程是源语言emcode到隐空间中，decoder解码到回去自己的源语言，损失就是编码解码之后的语言和源语言的距离，L1和L2编码的参数相同，所以翻译的过程是语言L1编码，然后解码到L2中。

Architecture of the proposed system. For each sentence in language L1, the system is trained alternating two steps: denoising, which optimizes the probability of encoding a noised version of the sentence with the shared encoder and reconstructing it with the L1 decoder, and on-the-fly backtranslation, which translates the sentence in inference mode (encoding it with the shared encoder and decoding it with the L2 decoder) and then optimizes the probability of encoding this translated sentence with the shared encoder and recovering the original sentence with the L1 decoder. Training alternates between sentences in L1 and L2, with analogous steps for the latter.

3.1 PROPOSED METHOD

如图1所示，所提出的系统遵循一个具有注意机制的相当标准的编解码器体系结构.

Shared encoder 我们的系统使用了一种且仅有一种编码器，该编码器由两种语言共享，类似于Ha et al.(2016)、Lee et al.(2017)和Johnson et al.。(2017)。例如，法语和英语将使用完全相同的编码器。这个通用编码器的目标是产生一个独立于语言的输入文本表示，然后每个解码器应转换成其相应的语言.

Fixed embeddings in the encoder

虽然大多数NMT系统随机初始化它们的嵌入并在训练期间更新它们，但我们在编码器中使用预先训练的跨语言嵌入，这些嵌入在训练学习期间是固定的。这样，编码器就得到了独立于语言的单词级表示，它只需要学习如何组合它们来构建更大短语的表示。正如第2.1节所讨论的，有几种非监督方法可以从单语语料库训练这些跨语言嵌入，因此在我们的场景中这是完全可行的。注意，即使嵌入式是跨语言的，我们也为每种语言使用单独的词汇表。这样，在法语和英语中都存在的单词chair(在法语和英语中都是肉的意思)在每种语言中都会得到一个不同的向量，尽管它们都在一个公共空间中。

3.2 UNSUPERVISED TRAINING

该系统采用共享编码器，利用机器翻译的双重结构，可以直接训练系统重构自己的输入。更具体地说，整个系统可以优化为使用给定语言的输入语句，使用共享编码器对其进行编码，然后使用该语言的解码器重构原始语句。假设我们在共享编码器中使用预训练的跨语言嵌入，那么这个编码器应该学会以独立于语言的方式组合两种语言的嵌入，并且每个解码器应该学会将这种表示分解为它们相应的语言。在推理时，我们简单地将译码器替换为目标语言的译码器，这样它就从编码器给出的与语言无关的表示形式生成输入文本的翻译.

尽管有去噪的策略，上面的训练过程仍然是一个复制任务，有一些综合的改变，最重要的是，每次只涉及一种语言，而没有考虑我们的最终目标是在两种语言之间进行翻译。为了在不违反只使用单语语料库约束的情况下，在真实的翻译环境中训练我们的系统，我们建议将Sennrich等人(2016a)提出的反向翻译方法应用于我们的场景。更具体地说，给定一种语言的输入语句，我们使用贪婪解码的推理模式将其翻译成另一种语言(即应用另一种语言的共享编码器和解码器)。通过这种方法，我们得到了一个伪平行句对，并训练系统从这个合成翻译中预测原句。