ELMo论文解读——原理、结构及应用

ELMo通过两层双向LSTM语言模型解决词向量在不同语境下的多义词问题。模型结构包括字符卷积、池化和highway networks,训练时以句子的上文和下文为输入。在下游任务中,ELMo的词向量是根据任务学习的线性组合,提供上下文敏感的词表征。
摘要由CSDN通过智能技术生成

论文地址:
https://arxiv.org/abs/1802.05365

一、引言

词向量是自然语言处理任务中非常重要的一个部分,词向量的表征能力很大程度上影响了自然语言处理模型的效果。如论文中所述,词向量需要解决两个问题:
(1)词使用的复杂特性,如句法和语法。
(2)如何在具体的语境下使用词,比如多义词的问题。
传统的词向量比如word2vec能够解决第一类问题,但是无法解决第二类问题。比如:“12号地铁线马上就要开通了,以后我们出行就更加方便了。”和“你什么时候方便,我们一起吃个饭。”这两个句子中的“方便”用word2vec学习到的词向量就无法区分,因为word2vec学习的是一个固定的词向量,它只能用同一个词向量来表示一个词不同的语义,而elmo就能处理这种多义词的问题。

二、elmo模型结构
Elmo主要使用了一个两层双向的LSTM语言模型,常见的有两种表示方式,可结合起来理解,如下:

在这里插入图片描述
在这里插入图片描述
以上图说明,左边输入的是句子的上文,右边输入的是句子的下文。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值