词向量-ELMo介绍

最新推荐文章于 2021-07-05 09:50:01 发布

彼得.攀

最新推荐文章于 2021-07-05 09:50:01 发布

阅读量771

点赞数

分类专栏：自然语言处理论文阅读及知识整理文章标签： nlp paper note word embedding

本文链接：https://blog.csdn.net/youngplus/article/details/101170031

版权

Deep contextualized word representations 获得了NAACL 2018的outstanding paper award，其方法有很大的启发意义，本文则是对其做了一个简要梳理。

预训练的word representation在NLP任务中表现出了很好的性能，已经是很多NLP任务不可或缺的一部分，论文作者认为一个好的word representation需要能建模以下两部分信息：
- 单词的特征，如语义，语法
- 单词在不同语境下的变化，即一词多义
之前很多工作的word representation是固定的，如word2vec/glove等word representation对于一个词，其向量是固定的，无法很好的处理一词多义的情况

基于上述原因，论文作者提出了Deep contextualized word representation来解决这个问题，算法大致过程如下：

在大规模语料中利用bidirectional LSTM模型训练语言模型（language model），ELMo（Embedding from language model）也由此得名
为了应用到下游任务，利用下游任务的语料库（无需label）对预训练的语言模型进行微调，然后再利用下游任务有标注的数据进行supervised learning

简单来说，ELMo模型是从深层的双向语言模型（deep bidirectional language model）中的内部状态(internal state)学习而来的

相较于之前的工作，ELMo的特点有：

Embedding是“deep"的，这体现在ELMo是biLM（bi-Language model）内部所有层的综合，这样可以有充分的信息来建模word representation：
- Higher-level LSTM states可以捕获上下文相关的语义信息，不用修改就可以用来做词义消歧
- Lower-level LSTMstates 可以捕获语法相关的信息，可以用作词性标注任务
  ELMo综合了上述信息，而之前的工作只利用了top LSTM layer的信息
其词向量是动态的，即根据当前上下文环境来产生当前词向量，而不是一个固定的外部词向量

语言模型的双向体现在对句子的建模：给定一个 $N$ 个token的句子， $\left(t_{1}, t_{2}, \ldots, t_{N}\right)$

前向语言模型：从历史信息预测下一个词，即从给定的历史信息 $\left(t_{1}, \ldots, t_{k-1}\right)$ 建模下一个token $t_k$ 的概率
$p\left(t_{1}, t_{2}, \ldots, t_{N}\right)=\prod_{k=1}^{N} p\left(t_{k} | t_{1}, t_{2}, \ldots, t_{k-1}\right)$
对于一个L层的LSTM，设其输入是 $x_k^{LM}$ (token embedding)，每一层都会输出一个context-dependent representation $\overrightarrow \mathbf{h}_{k, j}^{L M}$ ，LSTM的最后一层输出为 $\overrightarrow \mathbf{h}_{k, L}^{L M}$ ，该输出会在Softmax layer被用来预测下一个token $t_{k+1}$

关注