WORD TRANSLATION WITHOUT PARALLEL DATA ICLR2018

WORD TRANSLATION WITHOUT PARALLEL DATA ICLR2018

Alexis Conneau∗ † ‡ , Guillaume Lample∗ † § , Marc’Aurelio Ranzato† , Ludovic Denoyer§ , Herve J ´ egou ´ †

 

现在词翻译都依赖平行语料,本模型则是不需要,本无监督模型的效果甚至在语言差距大的语言如中英文之间的词对齐也是良好的的。

 

引言

学习分布式单词表示的最成功方法(如Mikolov等人(2013c;a);彭宁顿等(2014);Bojanowski等人(2017))依赖于Harris(1954)的分布假说,该假说认为,发生在相似上下文中的单词往往具有相似的含义。Goldberg(2014)的研究表明,Mikolov等人(2013c)采用负抽样的跳变图相当于分解一个词与上下文共现矩阵,其中的条目是各自的词与上下文对的点态互信息。利用词的共现统计量,可以得到反映语义相似性和差异性的词向量:相似的词在嵌入空间上相近,反之亦然

我们的方法利用对抗训练来学习从源到目标空间的线性映射,并分两步操作。首先,在一个两人游戏中,一个鉴别器被训练来区分映射的源嵌入和目标嵌入,而映射(可以看作一个生成器)被联合训练来愚弄鉴别器。其次,我们从生成的共享嵌入空间中提取一个合成字典,并使用schonemann(1966)的封闭形式procrustes解决方案对映射进行微调。¨由于该方法不受监督,因此不能使用跨语言数据来选择最佳模型。

 

模型

学习W矩阵,满足

Mikolov et al. (2013b)提出模型

词的对齐是根据映射后的空间余弦相似度

 

2.1 DOMAIN-ADVERSARIAL SETTING

在这一节中,我们提出了我们的领域对抗学习方法W(无跨语言监督)。设X = {x1,…, xn}, Y = {y1,…, ym}是分别来自源语言和目标语言的n组和m组单词嵌入。一个模型被训练来区分从WX = {wx1,…, W xn}和Y。我们称这个模型为鉴别器。训练W防止鉴别器做出准确的预测。因此,这是一个两个人参与的游戏,鉴别器的目标是最大化其识别嵌入源的能力,而W的目标是通过使WX和Y尽可能相似来防止鉴别器这样做。这种方法与Ganin et al.(2016)的工作相一致,他提出学习输入域不变的潜在表示,在我们的例子中,一个域由一种语言(源或目标)表示。

本文训练定义了鉴别器,鉴别器鉴别单词的来源

设计了映射器

学习阶段:使用对抗学习思想。

2.2 提纯过程

对抗学习学出了W,效果虽好,经过提纯,提升结果。

为了改进我们的映射,我们使用刚刚通过对抗性训练学习到的W构建了一个合成的并行词汇表。具体来说,我们考虑最频繁的单词,只保留相互最近的邻居,以确保高质量的词典。随后,我们将(2)中的Procrustes解决方案应用于生成的字典。考虑到Procrustes算法生成的改进解,可以生成更精确的字典并迭代应用该方法,类似于Artetxe et al.(2017)。然而,由于使用对抗性训练得到的合成字典已经很强大,我们只观察到在进行多次迭代时的小改进,即,单词翻译任务的改进通常低于1%。

 

2.3 CROSS-DOMAIN SIMILARITY LOCAL SCALING (CSLS)

:源空间单词映射后的最接近词集合

:目标词与邻居的平均相似度

则定义

直观地说,这个更新增加了与孤立单词向量相关的相似性。相反,它减少了分布在密集区域的向量。实验表明,CSLS在不需要任何参数调整的情况下,显著提高了单词翻译检索的准确性。

 

实验结果

 结论:

采用对抗学习思想学习词的映射,学习一个映射函数,使得源词在目标空间映射的向量表示和目标空间无法分辨出来,学习一个

分辨器,分辨出单词是那个来源。学习出映射函数之后,再经过提纯,提高模型效果。

 

 

 

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值