论文阅读_ICD编码_MSMN

介绍

英文题目:Code Synonyms Do Matter: Multiple Synonyms Matching Network for Automatic ICD Coding
中文题目:自动ICD编码的同义词匹配网络
论文地址:https://export.arxiv.org/pdf/2203.01515.pdf
领域:自然语言处理、生物医疗
发表时间:2022
作者:Zheng Yuan等,清华大学,阿里巴巴
出处:ACL
代码和数据: https://github.com/GanjinZero/ICD-MSMN
阅读时间:2022.06.14

读后感

通过代入外部资源UMLS,论文收集了每个编码的同义词,从而弥补了电子病历与ICD编码描述中同义不同词的问题。
其算法并没有像之前一些模型那么精巧,但引入外部资源后,效果的确提升不少。

泛读

  • 针对问题:ICD编码中一义多词问题
  • 核心方法:
    • 提出了多同义词匹配网络 (MSMN)
    • 使用LSTM+多头注意力
    • 将编码的同义词作为query以关注描述中的不同短语,从而生成与ICD编码相关的表示。
    • 使用双仿射的ICD编码相似度的文本表示,用于最终分类。
  • 泛读后理解程度:
    • 半小时看完,半小时整理(这是一篇短文)

方法

ICD编码同义词

使用UMLS(一体化医学语言系统)知识图,对ICD编码描述进行扩展,首先,将代码描述l1与UMLS中的概念唯一标识符CUIs对齐;然后从UMLS中选择具有相同CUIs的英语术语同义词,并通过删除连字符和单词“NOS”来添加额外的同义词。从而对每个ICD编码生成 {l2,l3…lM} 文本,下面用N表示每个描述包含的单词个数。

编码

使用LSTM作为编码器,利用预训练的词向量将词wi映射成xi,使用d层的双向LSTM,将词嵌入作为输入,计算其隐藏层作为表示。

对同义词编码时,使用同样的编码器编码,然后用最大池化获取其表示:

多同义词注意力

受多头注意力的启发,文中使用了多同义词注意力,将隐藏层切分成M块(M头):

此时,使用编码同义词的表示qj来查询Hj,用Hj和qj的线性变换来计算注意力得分a;文本与代码同义词的相关编码可用Ha求得。聚合基于编码的文本表示v,当只需要与一个编码匹配时,使用

分类器

分类器用于判断文本S是否包含ICD编码l,基于前面计算的依赖编码的文本表示vl编码的表示qj,使用双仿射变换来衡量分类的相似性。

之前很多模型只依赖编码,因此需要训练集中包含每种编码的实例,而这里的q是基于编码的文本表示,因此,学习的是文本之间的关系,与具体的代码无关

训练

用交叉熵来计算预测概率与实际标签的差异:

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值