本文完全来自于Anders Søgaard等人的著作[Søgaard2019] Søgaard, A., Vulić, I., Ruder, S., & Faruqui M. (2019). Cross-Lingual Word Embeddings。(本系列笔记跳过了原书的第10章“评估方法和应用场景”,这一章传递的最核心的意思是,跨语言词向量的意义应该是有助于知识跨语言的迁移。如果训练出了很好的语言 s s s和语言 t t t的双语词向量,那么在 s s s上训练的神经网络只需要将输入嵌入矩阵换成 t t t的嵌入矩阵,网络应该仍然有很好的效果)
单语资源
- 多语分布式词向量,以及40种语言的wiki dump(需科学上网,而且词向量最近一次更新是在2013年了)
- 23种语言的维基语料,XML格式
- 英、法、德、意语单语语料(10亿单词量级)
- fastText单语词向量(294种语言)
跨语种数据
- BabelNet,覆盖了284种语言的双语百科词典,同时具有一定的语义网功能
- PanLex,一个庞大的词典数据库,同时也提供一些词语翻译功能。号称覆盖5700种语言,但是网站内容纯度略堪忧
- OPUS,开放的平行语料库
- 23种语言,253个语言对的维基数据。注意文档之间并非严格对齐的翻译关系,只是原书提到的“可比较数据”
跨语言词向量模型
大部分都是给出训练用的代码。比较有名的包括
- VecMap (ACL 2018)、Ruder的扩展版本,基于隐变量
- 对78种语言fastText词向量的对齐工作,其中英语是中枢语言 (ICLR 2017)
- 无监督方法的代表MUSE
- BiSkip
- BilBOWA
(本小节没有列出原书给出的全部工作)
评估工具
- SemEval 2017,基于词向量相似度
- ACL 2016的工作,对内涵评估和外延评估都有涉及
- 85种语言的treebank
- 基于跨语言词向量的无监督机器翻译:UNdreaMT (ICLR 2018)、Monoses (EMNLP 2018)、FAIR的无监督机器翻译工作 (EMNLP 2018)
此外,可以使用前面提供的跨语词典或机器翻译工具(如Google Translate)来评估学到的双语词典的质量
目前重建巴别塔最大的阻碍还是缺少跨语系语言的双语评估数据