跨语言词向量笔记8. 有助益的数据和工具

本文详述了跨语言词向量的研究,包括单语资源、跨语种数据、各种模型及评估工具。提及的重要资源有fastText单语词向量、BabelNet、OPUS等,模型如VecMap、MUSE。评估方法涵盖SemEval 2017和无监督机器翻译评估。
摘要由CSDN通过智能技术生成

跨语言词向量笔记8. 有助益的数据和工具

本文完全来自于Anders Søgaard等人的著作[Søgaard2019] Søgaard, A., Vulić, I., Ruder, S., & Faruqui M. (2019). Cross-Lingual Word Embeddings。(本系列笔记跳过了原书的第10章“评估方法和应用场景”,这一章传递的最核心的意思是,跨语言词向量的意义应该是有助于知识跨语言的迁移。如果训练出了很好的语言 s s s和语言 t t t的双语词向量,那么在 s s s上训练的神经网络只需要将输入嵌入矩阵换成 t t t的嵌入矩阵,网络应该仍然有很好的效果)

单语资源

跨语种数据

  • BabelNet,覆盖了284种语言的双语百科词典,同时具有一定的语义网功能
  • PanLex,一个庞大的词典数据库,同时也提供一些词语翻译功能。号称覆盖5700种语言,但是网站内容纯度略堪忧
  • OPUS,开放的平行语料库
  • 23种语言,253个语言对的维基数据。注意文档之间并非严格对齐的翻译关系,只是原书提到的“可比较数据”

跨语言词向量模型

大部分都是给出训练用的代码。比较有名的包括

(本小节没有列出原书给出的全部工作)

评估工具

此外,可以使用前面提供的跨语词典或机器翻译工具(如Google Translate)来评估学到的双语词典的质量

目前重建巴别塔最大的阻碍还是缺少跨语系语言的双语评估数据

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值