论文阅读_一对多的手术名称规范化

最新推荐文章于 2022-09-18 00:57:52 发布

xieyan0811

最新推荐文章于 2022-09-18 00:57:52 发布

阅读量337

点赞数

分类专栏：论文阅读文章标签：知识图谱人工智能机器学习

本文链接：https://blog.csdn.net/xieyan0811/article/details/125124682

版权

论文阅读专栏收录该内容

89 篇文章 7 订阅

订阅专栏

英文题目：A Knowledge-driven Generative Model for Multi-implication Chinese Medical Procedure Entity Normalization
中文题目：知识驱动的多含义中文医疗实体规范化生成模型
论文地址：https://www.aclweb.org/anthology/2020.emnlp-main.116.pdf
领域：自然语言处理，实体规范化，医疗
发表时间：2020
作者：Jinghui Yan等，北京交通大学，中国科学院，繁宇科技有限公司
出处：EMNLP
被引量：4
阅读时间：22.06.04
针对问题：中文ICD9手术名称的规范化
结果：支持手术名称一对多规范化
核心方法：使用生成模型；利用知识约束；用子类数据精调模型

读后感

如果单纯依赖数据和模型，极可能产生一些完全不靠谱的匹配，文本规范化优化方法，多是针对这一问题的改进，比如代入知识。论文使用生成模型解决文本规范化问题，想法比较有意思，另外，使用约束的方式把知识代入了深度学习模型。

介绍

命名实体规范化（Named entity normalization，NEN）也叫实体链接（entity linking）。医疗实体规范化，主要指将诊疗过程中医生书写的文本与知识库中的实体建立连接，主要有手术名称对应ICD9编码规范化，和诊断名称对应ICD10编码规范化。

推动研究的主因是医生书写不一致，需要统一后再进行后续处理。且现实中很多科室一半左右的手术都由多个子手术组成，所以，规范化时一个手术需要对应多个标准手术名称。本文将其称为 multi-implication 多含义，文中也着重讨论了该问题的解决方法。图-1展示了一对多的情况。

与一般文本匹配不同的是，实体规范化是将任意文本与固定的标准文本链接。

之前的研究多使用判别模型。判别模型一般包含两步：用规则或简单的文本相似度方法从标准名称中找到实体（将每个ICD9手术名称为作为一个实体）候选项；然后用判别模型计算原始文本（非标准文本，后简称医生输入）与标准文本的相似度，选相似度最高的作为结果，一般将其称为 Selecting and re-randing(SR) 策略，它对于一对一标准化效果很好。

文中提出使用生成模型来生成标准化实体，生成过程中使用了两种约束：

编码约束
ICD-9-CM中包含分类，因此，给知识库中的每个实体一个惟一的类别标签，并为每个类别生成一个标签前缀树，以容纳属于它的所有实体。在生成文本时，约束生成的字符属于相应的类别。
类别精调
同一类别的实体往往有共性。根据标签拆分数据集，然后分别利用每类数据中的句子对精调模型。
基于上述方法，提出 generating and re-ranking (GR) 策略。对于每个医生输入文本，通过一个生成模型，用 beam search 方法产生几个标准的候选实体，然后，利用预训练的判别模型对所有候选词进行评分和重新排序。

论文贡献如下：

使用序列生成框架处理中文ICD9规范化中的一对多问题。
根据知识库中的类别约束生成序列，避免产生不合理的结果。
比之前模型效果好。

方法

定义一：字符生成顺序与实体中字符的顺序一致。
定义二：生成字符ci的前提条件包含：类别 l ，以及在 l 条件下的字符序列 s=c1,c2…ci-1（前面已生成的字符串）

基于类别约束的编码

设医生输入的非标准文本为M，最终对应出多个ICD9实体{e1,e2…eN}作为输出。首先，编码模型生成实体的类别标签；然后从知识库中找到该标签对应的所有实体建立前置树prefix tree；最后，编码器生成实体字符。其中前置树和之前生成的文本都作为本时间步生成字符的约束。当新的标签产生时，前置树也被替换。