跨语言词向量笔记6. 从跨语言词向量到多语言词向量
本文完全来自于Anders Søgaard等人的著作[Søgaard2019] Søgaard, A., Vulić, I., Ruder, S., & Faruqui M. (2019). Cross-Lingual Word Embeddings
在获得了双语词向量后,很自然地会考虑将其扩展到多语的环境下。训练多语词向量实际有很强的现实意义:一些工作指出对于词语歧义性问题,多语环境可以提供一种自然的、隐含的监督信号。一些语言对某些意思的定义是含蓄的,另一种语言则可能是外露的。因此使用多种语言做对齐可能可以更好地利用这种隐含的监督信号,达到消歧义以及产生更好的词嵌入的目的。即便是想学习词表之间的一一映射关系,词汇词意上分布的差异也可以扮演一个有效的正则项的角色
使用词级别信息的多语词嵌入
基于映射的方法
多语词嵌入学习里,最直接的仍然是基于映射的方法。这种方法需要一个中枢语言(通常是英语),若要学习 L L L个语言的词向量,则需要 L L L个单语空间和 L − 1 L-1 L−1个种子词典,然后将 L − 1 L-1 L−1个空间映射到相同的这个中枢语言空间中。记中枢语言为 l p l^p lp,则映射法的目标函数基本形式为
L 1 + L 2 + … + L L − 1 + L p + Ω l 1 → l p + Ω l 2 → l p + … + Ω l L − 1 → l p \mathcal{L}^1 + \mathcal{L}^2 + \ldots + \mathcal{L}^{L-1} + \mathcal{L}^p + \Omega^{l^1 \rightarrow l^p} + \Omega^{l^2 \rightarrow l^p} + \ldots + \Omega^{l^{L-1} \rightarrow l^p} L1+L2+…+LL−1+Lp+Ωl1→lp+Ωl