有任何的书写错误、排版错误、概念错误等,希望大家包含指正。
作图属实不易!
ELMo 讲解
ELMo 的核心思想是,基于深度语言模型进行训练,学习不同语境下的词向量用于更好地配合下游任务。
ELMo 的主要创新点在于结合双向语言模型(Bidirectionbbal Language Model,BiLM)和深度模型以解决一词多义的问题。双向语言模型使得 ELMo 捕捉来自上文和下文的信息;借助深度学习的思想,ELMo 对双向语言模型深度化,通过多层 BiLM 的堆叠来获取不同层次的特征。这两点创新使得作为第二代预训练模型(pre-trained model)之一的 ELMo 不同于第一代预训练模型(如Word2Vec等),第一代预训练模型也被认为是静态模型,它们为一个单词分配一个词向量,这无法处理单词在不同语境下一词多义的情况,而动态模型 ELMo 可以根据每次输入句子的不同,输出不同的词向量,很好地解决了一词多义的问题。
本文不具体区分“词嵌入”和“词表示”等概念,对应英文中的“word embedding”和“word representation”,统一用“词向量”表达,不影响理解。
严谨来说,