论文阅读_中文医学预训练模型_MC-BERT

最新推荐文章于 2025-02-22 15:03:47 发布

xieyan0811

最新推荐文章于 2025-02-22 15:03:47 发布

阅读量1k

点赞数 2

分类专栏：论文阅读文章标签： bert 自然语言处理深度学习

本文链接：https://blog.csdn.net/xieyan0811/article/details/124639569

版权

论文阅读专栏收录该内容

94 篇文章

订阅专栏

介绍

英文题目：Conceptualized Representation Learning for Chinese Biomedical Text Mining
中文题目：中文生物医学文本挖掘中的概念化表征学习
论文地址：https://arxiv.org/pdf/2008.10813.pdf
领域：自然语言处理，知识抽取
发表时间：2020
作者：Ningyu Zhang，阿里巴巴
被引量：14
代码和数据：https://github.com/alibaba-research/ChineseBLUE
模型下载：https://drive.google.com/open?id=1ccXRvaeox5XCNP_aSk_ttLBY695Erlok
阅读时间：2022.05.07

我的收获

获得了现成可用的医学BERT模型，以及大量带标注的数据集。

针对问题

医疗数据集与普通数据集分布不同，医疗词汇的长尾分布也很难从普通语料中学习，中文的词和短语更复杂一些。需要训练一个类似BERT的针对医疗的中文预训练模型。

本文贡献

提出了用于评价中文医疗语言模型的ChineseBLUE。
将实体和语言领域知识注入到模型，实现了基于医学的预训练模型MC-BERT。

方法

相对BERT的改进有以下三部分：

全实体Masking

MC-BERT以BERT为基础，因BERT中文以字为单位，文中方法利用知识图和命名实体识别到的词，以词作为遮蔽单位，如：同时遮蔽“腹痛”两个字。从而引入了领域知识，实体包括：症状、疾病、检查、处治、药品等。

全跨度Masking

“肚子有一点疼” ，“腹部一阵一阵痛”，"腹痛"的意思都差不多，利用Autophrase获取短语，然后从阿里巴巴认知概念图抽取医学短语，利用领域知识扩充数据，并训练一个二进制分类器来过滤那些非生物医学短语。收集了医学百科全书中实体和属性的n-gram表征作为正样本，随机采样短语作为负样本。

医学数据训练

将BERT模型作为基础模型，用医学数据训练。

具体训练方法如下：

数据来源

下游任务

文中提出的ChineseBLUE评价数据集，具体任务包含：

命名实体识别（NER）：识别疾病、药物、症状等，医疗数据集包含中国电子健康档案标注的cEHRNER，和中国社区问题数据标注cMedQANER。
解释识别（PI）：评价两句话是否同意。医疗数据集名为cMedQQ，它由成对的查询组成。
问答（QA）：根据相似度对候选答案排序，对QA分配标签使之转化为二分类问题。使用了包含长文本的cMedQNLI和短文本的cMeQA。
信息检索（IR）：根据给定的搜索查询查找最相关的文档，可视为排序任务，具体数据集是cMedIR，它包含一系列的文档及其打分。
意图分类（IC）：目标是给文本打意图标签，可视为多标签分类任务，具体使用cMedIC数据集，它包含三个标签：无意图，弱意图，强意图。
文本分类（TC）：给句子打多个标签，使用cMedTC数据集，由具有多个标签的生物医学文本组成。
中文医疗对话数据集（CMDD）：包含医患对话的数据集。（文中评测未使用）
问题推理（QNLI）：其中包含问答对，并标注是否回答正确。（文中评测未使用）

具体数据量如下：

实验结果如下

对比BERT与MC-BERT：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZG45CO7c-1651929218385)(https://upload-images.jianshu.io/upload_images/5357893-6dc61bde40a716ff.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)]

展示Mask改进的有效性：