论文阅读_ICD编码_BERT

英文题目:BERT-based Ranking for Biomedical Entity Normalization
中文题目:基于bert的生物医学实体标准化排序
论文地址:https://arxiv.org/pdf/1908.03548
领域:自然语言处理,生物医学,实体标准化
发表时间:2019
作者:Zongcheng Ji, 德克萨斯大学
被引量:6
阅读时间:22.06.20

读后感

中规中矩的方法,评测了各个预训练模型的差异。

介绍

BERT是常用的自然语言处理深度学习模型, BoiBERT和ClinicalBERT是针对医疗领域预训练的模型,文中提出的架构用于将上述模型通过微调解决医疗实体规范化问题.

实体规范化Entity linking,主要面临以下挑战:

  • 歧义问题:同一实体可能与多个概念相连
  • 变体问题:同一概念可能与不同的实体相连
  • 缺失问题:实体不与知识库中的任务概念相连
    (这里指的概念是规范化后的文本)

在医疗领域主要任务是对实体的规范化和编码,变体问题是医疗领域的主要问题。

方法

已知文档的句子中的有实体m,以及包含很多概念的知识知识库KB,任务是将实体m连接到KB中的概念c,如果找不到,则认为不可达 unlinkable。

图-1展示了文中方法的结构,包含四个模块:预处理、创建候选项、候选项排序、预测不可达。

预处理

对于m和c都进行如下操作:

  • 拼写纠错
  • 缩写转换
  • 处理数字符号
  • 其它预处理:使用CLAMP28工具包,处理标点,大小写等。
生成候选概念

利用传统的 BM25 模型。首先,提取所有概念c和训练集中的m用于训练模型,对于m,选择模型推荐的前10个近似项c作为候选概念。

候选概念排序

使用预训练的 BERT/BioBERT/ClinicalBERT 模型,将排序任务转换成句子对的分类任务。对于每个m与对应的c,构建 [CLS] m [SEP] c 输入模型,精调模型参数。当m中包含概念c时,其类别为1,否则为0。

预测不可达

m中的实体可能找不到对应概念c,因此,需要预测不可达的情况。如果 BM25 不能返回候选项,则认为不可达。另外,设定一个阈值,如果相似度得分小于阈值,则认为不可达。

实验结果

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值