ELMo
前言
https://arxiv.org/pdf/1802.05365v2 原始论文链接
在之前的章节中,深入讨论了 Word2vec 模型对自然语言处理领域的深远影响。以及讲解了大名鼎鼎的变形金刚Transformer对多模态技术发展的影响,虽然按照逻辑顺序,接下来的章节应该是学习 Bert 模型,但是为了在学习Bert过程中能够与 ELMo 进行深入对比并且保持学习过程中的连贯性,本章节将先行讲解 ELMo 模型。
ELMo 模型与传统的 Word2vec 模型之间的一个关键区别是其有能力在于解决多义词问题。Word2vec 模型在训练完成后,简单的索引操作就足以获得单词的嵌入表示;然而,在真实语境中,同一个词在不同的上下文中可能代表完全不同的概念。这种静态的词嵌入处理方式并不能真正贴合人类对词义随上下文变换的直观理解。因此,ELMo 的诞生正是为了弥补这一不足,它通过分析单词的上下文信息来适当调整该词的嵌入表示,使得模型能够更加精准地捕捉词义的动态变化。
一、ELMo
按照惯例,首先对ELMo模型给出一个简单直白的