跨语言词向量笔记9. 挑战与未来研究方向
本文完全来自于Anders Søgaard等人的著作[Søgaard2019] Søgaard, A., Vulić, I., Ruder, S., & Faruqui M. (2019). Cross-Lingual Word Embeddings
本书提出了如下几点未来可能的研究方向
- Subword级别的信息。对于词形态比较丰富的语言,单词内部结构可能会比较复杂,某些词的某些词形也比较罕见。对于这样的语言,更合理的是将词干lemmma和词素morpheme的表示结合起来。目前一些构建单语词向量的工作已经注意到了这一点,但是还没有用到跨语言词向量的学习中。开放性问题:对于词形非常不同的语言,如何很好地对齐词空间?例如某个语言中单个单词包含的信息要在另一个语言里用词组表示
- 词组习语的表示(原文仅仅用的是“multi-word”这个词)。对词形态丰富的语言,仅仅用单词作为最细粒度的表示单元,看上去有点粗糙。但是即便是对词形态简单的语言,有时词组的意思也不能简单地按照组成词组的单词字面意思理解,例如ad hoc或者kick the bucket(后者是“死”在俚语里的委婉说法)。这种词组的表示在单语词向量里都还没有收到重视。开放性问题:可以使用当前技术跨语言对齐词组吗
- 功能词。目前单语词向量对功能词(虚词)的刻画能力不够,不太好区分Give me a pencil或Give me that pencil
- 多义词。如何区分同一单词的不同词义?这个问题对单语词向量的学习来说还没很好解决,而在多语词向量学习中这个问题会被进一步放大。假设多义词会为源语言带来 m m m个不好的词向量,为目标语言带来 n n n个不好的词向量,那么最坏情况会在跨语言空间中得出 O ( m × n ) \mathcal{O}(m\times n) O(m×n)个错误的最近邻关系。开放性问题:在跨语言NLP中需要这种词义级别的表示吗?
- 特殊领域的词嵌入。在某些领域,跨语言应用可能尤其有用,例如生物信息学或社交媒体等。但是,在很多这样的领域以及很多少资源语言,平行语料并不容易获得,因此使用尽可能少的平行语料训练出鲁棒的跨语言词向量是一个很重要的研究方向。另一个相关方向是研究怎么把可比较的语料用起来,因为这样的语料更多,更容易获得,而且会包含一些其他的信号,例如多模态上下文
- 可行性。现有工作期望学到的共享空间机能捕捉到语言内部词之间的信息,同时还能捕捉到语言之间的信息——这有点太乐观了。不同的语言是有很大区别的。另外一个瓶颈是找出一个既满足语言内限制和语言间限制词嵌入的时间复杂性。尽管现有方法都是通过损失函数来对打破这样限制的模型加以惩罚,但是无法确保最终模型可以满足全部限制——检查是否满足限制的算法,时间复杂度不高,与限制数量成线性关系;但是要找出这样的模型是否存在就比较难,实际上是NP-hard的
- 非线性变换。目前所有基于映射的方法都是假设两个嵌入空间之间存在一个线性变换,而且一些工作得到的线性映射也比通过前馈神经网络学到的非线性映射效果好。但是线性变换还是一个太简单的模型,而且忽视了语言之间的区别。开放性问题:如何能鲁棒地学出向量空间之间的非线性映射呢?
- 鲁棒的无监督方法。目前的无监督方法依赖一个重要假设,就是单语词向量空间都是大致同构的,不过这个假设实际上很难成立。如前所述,如果两个语言关系比较远,很多无监督方法会变得不稳定或者不可用。因此使用鲁棒的无监督方法为关系远的语言做双语词典推导,还是一个开放性问题