跨语言词向量笔记5. 文档级别对齐方法
本文完全来自于Anders Søgaard等人的著作[Søgaard2019] Søgaard, A., Vulić, I., Ruder, S., & Faruqui M. (2019). Cross-Lingual Word Embeddings
由于篇章对齐的数据实际上包含了大量句子对齐的数据,可以用上一章介绍的方法训练跨语言词向量模型,因此本章主要讨论的是如何使用篇章级别可比较的数据来达到目的。这种数据通常更容易获得,不需要太多人工标注。典型的可比较数据是同一词条的不同维基页面
以往使用篇章级可比较数据的工作可以分为三种
在文档中人工混合两种语言这一方法由[Vulić2016]提出,类似于前面介绍的人工制造混合语言语料的工作。其具体做法是使用了一种合并-打乱的策略,先把两个对齐的文档拼接起来,然后通过打乱词序来为每个单词学习一个鲁棒的双语上下文。但是由于这种打乱是完全随机的,因此可能会导致一个次优解。因此文章还提出了一个更有确定性的打乱策略(也可以看做是同时附加了合并功能),称为长度比打乱策略:首先将最终文档初始化为一个空文档,然后假设源语言文档长度为 L s L^s Ls,目标语言文档长度为 L t L^t Lt,记 L s / L t = R L^s/L^t = R Ls/Lt=R,则先向最终文档按照顺序加入 R R R个源语言文档的词,再向最终文档加入1个目标语言文档的词,以此类推
基于概念的模型其背后蕴含着一个预置事实,即不同语言用来讨论相同概念或主题的词都是相似的。[Vulić2013]从认知学领域引入了“语义词语回应”(semantic word response)的说法,这一说法指的是,当人看到一个词时,下意识想到的第一个词。文章认为如果源语言和目标语言两个单词会产生相似的语义词语回应,那么这两个单词也是相似的。文章在对齐的维基文档上使用概率多语言主题模型来学习并量化语义词语回应,源语言单词 w i w_i wi对应的向量 x i s ∈ R ∣ V s ∣ + ∣ V t ∣ \boldsymbol{x}_i^s \in \mathbb{R}^{|V^s|+|V^t|} xis∈R∣Vs∣+∣Vt∣具体表示为
x i s = [ P ( w 1 s ∣ w i ) , … , P ( w ∣ V s