知识增强系列 ERNIE: Enhanced Representation through Knowledge Integration，论文解读

云从天上来

于 2024-01-29 14:46:26 发布

阅读量568

点赞数 8

分类专栏：自然语言处理NLP 文章标签：深度学习自然语言处理人工智能知识图谱

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiao_ling_yun/article/details/135911867

版权

自然语言处理NLP 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

论文全称：通过知识集成增强语义表达

1. motivation

ERNIE 目的在于通过知识屏蔽策略增强语言表示，其中屏蔽策略包括实体级屏蔽(Entity-level strategy)和短语级屏蔽(Phrase-level strategy)。 entity-level 策略通常会掩盖由多个单词组成的实体; Phrase-level 策略会掩盖由几个词共同作为概念单元的整体短语。

2. 模型

论文中对于不同任务使用的模型分为两种，原始Bert结构，和本文针对‘对话数据’额外提出的Dialogue Language Model。

非对话数据：模型整体结构没有改变，依然是Bert的结构，输入仍然是3个部分 token embedding + segment embedding + position embedding，整句话的第一个token是[CLS]。

对话数据：Dialogue Language Model，segment embedding --> dialogue embedding，Q=question；A=answer

3. 知识屏蔽策略，一起训练？还是多阶段依次训练？

3.1 Basic-level Masking（Bert）

将句子视为基本语言单元的序列，对于英语，基本语言单元是单词；对于中文，基本语言单元是汉字。

在训练过程中，随机屏蔽 15% 的基本语言单元，并使用句子中的其他基本单元作为输入，并训练一个transformer来预测Mask的部分。

基于Basic-level Masking，获得基本的单词表示。因为它是在基本语义单元的随机掩码上训练的，高级语义知识很难完全建模。

3.2 短语阶段 Phrase-Level Masking

第二阶段是使用短语级掩码。短语是一小组单词或字符，它们共同充当一个概念单元。

对于英语，使用词法分析和分块工具来获取句子中短语的边界，并使用一些语言切分工具来获取其他语言（例如中文）的单词 / 短语信息。

随机选择句子中的几个短语，对同一短语中的所有基本单元进行掩码和预测。在这个阶段，短语信息被编码到词嵌入中。

3.3 实体阶段 Entity-Level Masking

名称实体包含人、地点、组织、产品等，可以用专有名称表示，这一步类似于‘成分切分’ or ‘命名实体识别’。

与短语掩码阶段一样，首先分析句子中的命名实体，然后对实体中的所有槽进行掩蔽和预测。

4. 遗留问题

看论文描述，将3种掩码策略混在一起使用，论文并未有具体描述

云从天上来

关注

8
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。