论文阅读_医疗NLP_ SMedBERT

最新推荐文章于 2024-10-17 17:17:28 发布

xieyan0811

最新推荐文章于 2024-10-17 17:17:28 发布

阅读量483

点赞数

分类专栏：论文阅读文章标签：自然语言处理人工智能机器学习

本文链接：https://blog.csdn.net/xieyan0811/article/details/125835967

版权

论文阅读专栏收录该内容

90 篇文章 7 订阅

订阅专栏

介绍

英文题目：SMedBERT: A Knowledge-Enhanced Pre-trained Language Model with Structured Semantics for Medical Text Mining
中文题目：SMedBERT: 基于结构化语义的医学文本挖掘知识增强的预训练语言模型
论文地址：https://arxiv.org/pdf/2108.08983/n
领域：自然语言处理，生物医疗
发表时间：2021
作者：Taolin Zhang，华东师范大学，阿里巴巴，丁香园
出处：ACL
被引量：1
代码和数据：https://github.com/MatNLP/SMedBERT，含模型下载地址
阅读时间：22.06.22

读后感

提出SMedBERT模型，将知识注入医疗自然语言模型。它使用大规模的医疗数据，同时又融入了知识图中实体连接的语义结构。
外部数据使用了OpenKG和丁香园；利用了知识图中实体的邻居信息及其类别信息；
使用注意力方法，将已有知识注入预训练模型。

名词解析

KEPLMs（Knowledge-Enhanced Pre-trained Language Models）：知识增强的预训练语言模型
mention-spans：句中某个字对应的实体

介绍

图-1中示例了一个外部知识图，图中用不同的线框表示出不同类型的实体，以及实体之间的不同关系。通过知识图中的邻居关系（类型、连接关系），可以丰富文本的语义信息；另外，将图中邻居关系作为“上下文”可补充纯文本的上下文。

主要贡献

使用了类别和邻居节点的注意力，以减少引入知识图时带来的干扰
将知识图中的邻居作为上下文训练模型

方法

符号介绍

w：单字
h：每个字的向量表示
N：字串中最大长度（可理解成文本长度）
em：单字对应的实体
E：实体集合
R：关系集合
(h,r,t)：知识图中三元组（头实体、关系、尾实体）
Γent和Γrel：分别是实体的表示和关系的表示
Nem：实体em的邻居
K：实体em最重要的前K个邻居
Z：知识图中实体个数
d：向量维度
M：预测训练的实例条数

模型概览

整体逻辑如图-2所示：

左侧是简单的流程图，分成三部分，

最下面的部分左边是对文本做嵌入token embedding，和BERT一样；右边引入了知识图，对于每个可能提及的实体取 top-K 个最重要的邻居。
中间混和知识图和基于上下文的嵌入
上面部分是训练模型，也包含两部分，左边是和BERT类似的MLM训练，右边将知识图中的三元组以上下文的方式组合，训练模型。

右侧图对上述逻辑做了进一步细化。（1）以输入文本是”新冠病毒“为例，刚好是个四字词，所以也作为一个单一的实体，将它送入知识图（右下），利用PERP算法找到与它关系最大的K个实体，它们是咳嗽、抗病毒治疗、快速抗原检测三个实体节点Node，分属三个类别Type；（2）使用它们做注意力将知识注入上下文语言模型混合（左）；（3）将知识图中的邻居作为上下文训练自然语言模型，学习实体间关系。

实体的Top-K邻居

为了从知识图中选择最重要的前k个邻居。这里基于PPR算法（排序算法），扩展成PEPR（Personalized Entity PageRank）。
Vi计算方法如下：
Vi = (1 − α)A ·Vi−1 + αP
其中A是正则化的邻接矩阵，α是阻尼系数，P是均匀分布跳跃概率向量，用于引入随机性，即使某节点和谁都不连着，也能访问到。V是针对每个节点em迭代计算的向量，可将它看成节点的重要性，重要性由它的邻接关系A和其自身的重要程度（V初始值）构成。
V初始化的计算方法如下：