跨语言词向量笔记1. 序言与分类方法
本文完全来自于Anders Søgaard等人的著作[Søgaard2019]
提出跨语言词向量的目的是在跨语言应用中表示各语言单词词义,并跨语言传递学到的知识。跨语言词向量使得模型可以在多语言上下文中推理词义,也可以计算不同语言单词的相似度,有利于跨语信息提取。此外,由于跨语词向量有助于跨语言传递学到的知识,因此当一门语言资源丰富,另一语言资源匮乏时,这种模型尤其重要。
需要注意的是,使用神经机器翻译(NMT)也可以隐式地学到跨语言词向量,而本文所提到的模型都是显式学习跨语言词向量,学习速度和效率都比NMT要快,代价更低。原书不仅对近五年(2014年-2019年)跨语言词向量的学习方法做了一个全面的调研,同时还透过它们不同的表象揭示了它们相似的本源
本文所用记号
(本文所用记号与原文稍有不同,原文使用黑正体 x \bf x x代表向量,与大多数文章(包括维基词条)一致。本文继续使用黑斜体 x \boldsymbol{x} x代表向量,与花书保持一致)
-
X l ∈ R ∣ V l ∣ × d \boldsymbol{X}^l \in \mathbb{R}^{|V^l|\times d} Xl∈R∣Vl∣×d: L L L个语言中第 l l l个语言的词向量。 V l V^l Vl是该语言的词汇表, d d d是词向量维度
-
X i , : l \boldsymbol{X}_{i,:}^l Xi,:l,是 X l \boldsymbol{X}^l Xl的第 i i i个单词的词向量,简记为 x i l \boldsymbol{x}_i^l xil。在不造成歧义的情况下,可以写作 x i \boldsymbol{x}_i xi。其对应的单词为 w i w_i wi
-
如果考虑单词的上下文,假设有 C C C个上下文单词,则分别记为 c 1 , … , c C c_1, \ldots, c_C c1,…,cC。如果某些词向量训练方法区分中心词词向量和上下文单词词向量,则上下文单词词向量分别记为 x ~ 1 , … , x ~ C \tilde{\boldsymbol{x}}_1, \ldots, \tilde{\boldsymbol{x}}_C x~1,…,x~C
-
记源语言为 s s s,目标语言为 t t t,有些模型会训练一个转换矩阵,将源语言