DyLex: Incorporating Dynamic Lexicons into BERT for Sequence Labeling 论文解读

最新推荐文章于 2024-05-30 20:13:31 发布

boardking135

最新推荐文章于 2024-05-30 20:13:31 发布

阅读量1.1k

点赞数 3

分类专栏：论文阅读文章标签： bert 自然语言处理深度学习神经网络 nlp

本文链接：https://blog.csdn.net/zhangyinhua1122/article/details/123422871

版权

论文阅读专栏收录该内容

7 篇文章 0 订阅

订阅专栏

华为诺亚方舟 EMNLP 2021 论文解析
DyLex: Incorporating Dynamic Lexicons into BERT for Sequence Labeling
作者：
作者截图
论文链接：link

文章主要内容

BERT word-piece 和 Char embeddings 的方式会造成单词信息不能被完全利用，这使得难以准确地确定实体边界或正确预测实体类型。
文章提出了一种有效将外部词典知识引入到序列标注任务的框架，支持词汇的动态更新
在 CWS(汉语分词)、NER(命名实体识别)和NLU(自然语言理解)任务上取得了SOTA result。

当前研究的做法

文章中引用了三篇文章，介绍了当前做法和不足
做法：

首先匹配具有多个词汇的输入句子以获取所有匹配项。
然后修改模型的 layer 来使用匹配到的信息

缺点：

词表更新时需要对模型重新训练
忽略了词的类型

由此作者采用了下面的做法：

模型图

dylex 模型图
首先看模型图（a）分为两个部分，基于BERT的序列标签和词典知识抽取，词典知识抽取部分又包括 tag 的匹配、去噪和融合
BERT 的序列标签部分与用BERT做序列标注的方法类似，这里不再介绍。
这里主要对第二块进行分析

词典知识抽取部分

匹配

通常的方法采用词典额外的词向量的方式学习词典知识，一旦词汇表更新，模型就需要重新训练。这篇文章通过设计一个字无关的表示，不依赖词汇表的大小和内容。其通过 prefix Trie树，对BERT 的输入进行快速匹配，直接匹配到其中包含的标签。
matchIng

这里通过三个公式表示了词向量的计算过程，生成了去噪部分的输入
the input of denosing

去噪

去噪部分是对匹配部分的清洗操作，因为在匹配部分会匹配到很全部的可能性，这里需要根据训练语料对匹配到的不正确的tag 做清洗。
denosing module
如上图，第一行和第四行属于匹配错误，进行删除
该部分的判断标准可以利用数据集自动生成的标签
作者特别强调，在没有提供词典标签的情况下，该方法也可以工作，该方法将退化为使用词典的边界。
首先通过下面公式从词向量 $E_{d}^{(i)}$ 获取对应的第 $i$ 个tag 序列
tag 序列计算方法
其中 $S e l f A t t$ 是 self attention 的计算方法
然后通过一个线性层判断改tag 序列是否为噪声序列，如在去噪部分的图中，第三行第四行必不能同时为真。

融合层

融合层通过attention 机制，利用bert 本身产生的向量与词典知识抽取部分产生的向量做attention操作，得到最终的向量表示。
Ek计算方法
其中 $K V$ 均为词典知识抽取模块得到的向量，Q为bert 生成的向量
将 $E_{k}^{(j)}$ 拼接得到词典知识抽取的最终表示。

最后label 预测

label 预测
拼接两个向量得到完整的句子表示向量，然后通过linear 层得到标签。

实验结果

实验结果在三个任务上基本都是最优，可以从论文中查看
未来工作考虑在文本分类中应用，文中提到去噪是当前分类任务的研究难点

boardking135

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
3
评论
DyLex: Incorporating Dynamic Lexicons into BERT for Sequence Labeling 论文解读

华为诺亚方舟 EMNLP 2021 论文解析DyLex: Incorporating Dynamic Lexicons into BERT for Sequence Labeling作者：论文链接：link文章主要内容BERT word-piece 和 Char embeddings 的方式会造成单词信息不能被完全利用，这使得难以准确地确定实体边界或正确预测实体类型。文章提出了一种有效将外部词典知识引入到序列标注任务的框架，支持词汇的动态更新在 CWS(汉语分词)、NER(命名实体识别)和N
复制链接

扫一扫