本文完全来自于Anders Søgaard等人的著作[Søgaard2019] Søgaard, A., Vulić, I., Ruder, S., & Faruqui M. (2019). Cross-Lingual Word Embeddings
在基于单词映射求跨语言词向量的方法中,很多工作都试图在保持学到的映射可靠性的情况下,减少所需要的监督信号。一些工作发现即便只使用数词和不同语言间拼写相同的单词也可以学到可用的映射关系,另一些工作用的甚至是完全无监督的方法,其背后通常是生成式对抗网络网络(GAN)或者迭代最近点算法(iterative closest point, ICP)。所有算法的目的都可以看做是学习一个线性变换来最小化目标分布和源分布之间的散度
大多数使用无监督方法学习跨语言词向量的方法都分成两步。第一步使用GAN或ICP等方法产生一个种子词典,第二步则是使用这个种子词典做之前的映射算法(例如普式分析)。即映射算法还是有监督的,只不过不再人工制造种子词典,而是无监督学出一个种子词典。在这两步之间,还需要一个重要的启发式算法,引导如何选取词对来构造种子词典。本章第一节主要介绍种子词典的推导方法,第二节介绍精化和相关的启发式方法,第三章介绍当前无监督方法存在的问题。需要注意的是,无监督方法是目前跨语言词向量学习这一方向研究的重点,进展日新月异,因此本文的调研是不完备的
种子词典的推导
很多无监督方法使用的种子词典推导过程看上去都像是在炼丹,反直觉,但是很有趣。不过需要注意的是,推出种子词典只是迈出了一小步,后面的精化和启发式方法有时候能明显地化腐朽为神奇
基于GAN的方法
基于GAN的方法中,最典型也最出名的是MUSE[Conneau2018],其使用一个带线性生成器的原始GAN来学习嵌入空间之间的对齐。在一个有两名参与者的游戏中,判别器 D D D试图区分两个嵌入空间,而生成器 G G G试图通过将源语言空间映射到目标语言空间来欺骗判别器(这也是生成器的训练目标)
生成器可以是任何可微函数 G w G_w Gw,在本文中,其具体表现形式是一个线性映射 W s → t \boldsymbol{W}^{s\rightarrow t} Ws→t,目标使其选择的 W s → t \boldsymbol{W}^{s\rightarrow t} Ws→t可以让输出 W s → t X s \boldsymbol{W}^{s\rightarrow t}\boldsymbol{X}^s Ws→tXs的分布尽可能接近 X t \boldsymbol{X}^t Xt。判别器可以看做是一个形式为 D w : X → { 0 , 1 } D_w:\mathcal{X} \rightarrow \{0,1\} Dw:X→{
0,1}的函数,在MUSE中是一个多层感知机,其任务是区分 W s → t X s \boldsymbol{W}^{s\rightarrow t}\boldsymbol{X}^s Ws→tXs和 X t \boldsymbol{X}^t Xt。由于对于任何向量 x \boldsymbol{x} x,我们知道是 x ∈ X s \boldsymbol{x} \in \boldsymbol{X}^s x∈Xs还是 x ∈ X t \boldsymbol{x} \in \boldsymbol{X}^t x∈Xt,因此对 N N N个来自于 X s \boldsymbol{X}^s Xs的样本和 N N N个来自 X t \boldsymbol{X}^t Xt的样本,可以计算判别器的损失函数,并更新判别器的参数:
w ← w + α ∑ i = 1 N ∇ [ log ( D w ( X i t ) ) + log ( 1 − D w ( W s → t X i s ) ) ] w \leftarrow w + \alpha\sum_{i=1}^N \nabla \left[\log( D_w(\boldsymbol{X}_i^t)) + \log (1-D_w(\boldsymbol{W}^{s \rightarrow t}\boldsymbol{X}_i^s))\right]