论文地址:
https://arxiv.org/abs/1802.05365
一、引言
词向量是自然语言处理任务中非常重要的一个部分,词向量的表征能力很大程度上影响了自然语言处理模型的效果。如论文中所述,词向量需要解决两个问题:
(1)词使用的复杂特性,如句法和语法。
(2)如何在具体的语境下使用词,比如多义词的问题。
传统的词向量比如word2vec能够解决第一类问题,但是无法解决第二类问题。比如:“12号地铁线马上就要开通了,以后我们出行就更加方便了。”和“你什么时候方便,我们一起吃个饭。”这两个句子中的“方便”用word2vec学习到的词向量就无法区分,因为word2vec学习的是一个固定的词向量,它只能用同一个词向量来表示一个词不同的语义,而elmo就能处理这种多义词的问题。
二、elmo模型结构
Elmo主要使用了一个两层双向的LSTM语言模型,常见的有两种表示方式,可结合起来理解,如下:
以上图说明,左边输入的是句子的上文,右边输入的是句子的下文。