医学NLP领域（主要中文）评测数据集-CSDN博客

医学NLP领域（主要中文）评测数据集

来自

Chinese_medical_NLP

评测及比赛

• MEDIQA-2021 （ NAACL 2021 workshop）

MEDIQA 2021 解决了医疗领域的三个摘要任务：消费者健康问题摘要、多答案摘要和放射学报告摘要。在这个共享任务中，还将探索使用不同的评估指标进行总结。

1) 消费者健康问题汇总

消费者健康问题往往包含许多妨碍自动问答 (QA) 的外围信息。基于对这些问题的手动专家总结的实证 QA 研究表明，性能显着提高了 58% 。因此，针对消费者健康问题的有效自动摘要方法可以在增强医学问答方面发挥关键作用。

这项任务的目标是促进新总结方法的开发，专门解决长期和潜在复杂的消费者健康问题的挑战。

相关方法应该能够生成一个简明的问题，表达找到原始问题正确答案所需的最少信息。

训练数据：消费者健康问题的 MeQSum 数据集及其摘要可用于训练。参与者可以使用可用的外部资源，包括但不限于医学 QA 数据集和问题焦点和类型识别数据集。例如，CHQs 数据集包含 MeQSum 问题的附加注释（例如医疗实体、问题焦点、问题类型、关键字）。

验证和测试集：由美国国家医学图书馆 (NLM) 于 2020 年 12 月收到的消费者健康问题及其相关摘要组成，由医学专家手动创建。

2) 多个答案的总结

不同的答案可以带来互补的观点，这些观点可能有利于 QA 系统的用户。

这项任务的目标是促进多答案摘要方法的发展，该方法可以同时解决由医学问题的多个相关答案引起的聚合和摘要问题。

训练数据：MEDIQA-AnS 数据集可用于训练。参与者可以使用可用的外部资源（例如现有的医学 QA 数据集）。

验证和测试集：原始答案由医疗 QA 系统 CHiQA生成，该系统仅从可信赖的医疗信息源中搜索答案。摘要由医学专家手动创建。

3) 放射学报告总结

放射学报告的自动汇总具有多种临床应用，例如加速放射学工作流程和提高临床通信效率。

该任务旨在促进临床总结模型的开发，该模型能够通过总结放射科医师撰写的文本发现来生成放射学印象陈述。

• ICLR-2021-医疗对话生成与自动诊断国际竞赛（ICLR 2021 workshop）

本次竞赛以自动医疗诊断对话系统的开发为主题，目前设置了两大赛道：医疗对话生成赛道和自动医疗诊断赛道。

1）MedDG：实体感知医学对话生成

该赛道专注于实体感知医学对话生成。形式上，给定医生和患者之间的对话历史 X={X_1,X_2,…,X_K}，其中 X_K 是患者的最后一句话，该任务的目标是生成医生的下一个响应 X_{ K+1} 使用尽可能多的正确实体。

MedDG是一个以实体为中心的大规模医学对话数据集，涉及12种常见胃肠疾病，从在线健康咨询社区收集了超过17K的对话和385K的话语。每个对话都用五种不同类别的实体进行注释，包括疾病、症状、属性、测试和药物。

2）医疗诊断对话系统

该赛道的目标是构建面向任务的自动医疗诊断对话系统，该系统与患者进行对话以收集他们自我报告之外的其他症状并最终做出疾病诊断。具体来说，该系统只能在开始时访问明确的症状。当它在对话期间请求一个症状时，用户模拟器将采取三个动作之一，包括对阳性症状的 True、对阴性症状的 False 和对于用户目标中未提及的症状的不确定。最大术语数为 22。

构建了一个名为MDD的新医学诊断对话数据集，包括一般领域的12种疾病。将源病历转换为结构化的用户目标，仅包括疾病标签、显性症状和隐性症状，以尽可能保护隐私。与之前的数据集相比，MDD 大了三倍，包括 2,374 个对话、12 种疾病类型和 118 种症状类型。此外，它来源于线下（实体）医院的真实患者，因此更接近真实的临床诊断场景。

• 中文医疗信息处理挑战榜CBLUE数据集

来自

阿里云天池（10个任务）

中文医疗信息处理挑战榜评测长期开放。CBLUE 1.0是由CHIP会议往届的学术评测比赛和阿里夸克医疗搜索业务的数据集组成，包括医学文本信息抽取（实体识别、关系抽取）、医学术语归一化、医学文本分类、医学句子关系判定和医学QA共5大类任务。

1）中文医学命名实体识别（CMeEE）

2）中文医学文本实体关系抽取（CMeIE）

3）临床术语标准化任务（CHIP-CDN）

4）临床试验筛选标准短文本分类（CHIP-CTC）

5）平安医疗科技疾病问答迁移学习（CHIP-STS）

6）医疗搜索检索词意图分类（KUAKE-QIC）

7）医疗搜索查询词-页面标题相关性（KUAKE-QTR）

8）医疗搜索查询词-查询词相关性（KUAKE-QQR）

9）蕴含实体的中文医疗对话生成（MedDG）

10）医疗对话临床发现阴阳性判别（CHIP-MDCFNPC）

• 中国计算语言学大会CCL-2021智能医疗对话诊疗评测任务

本次智能对话诊疗评测设置3个赛道。

赛道一：医患对话理解

医患对话理解旨在对问诊文本信息进行信息抽取，主要包括两个任务，分别是命名实体识别和症状检查识别。

任务1：命名实体识别。从医患对话文本中识别出五类重要的医疗相关实体。

任务2：症状识别。根据医患对话文本，识别出病人具有的症状信息。本赛道数据集包括超过3000组医患对话案例样本，覆盖6种儿科疾病，10万余句对话，样本平均对话次数为40次，平均每个样本的对话字数为523个。

赛道二：医疗报告自动生成

医疗报告自动生成旨在对问诊过程中进行信息的总结，任务要求参赛团队能依据病人自述和医患对话，输出具有规定格式的医疗报告。报告需要包含6个部分：主诉、现病史、辅助检查、既往史、诊断和建议。

任务1：医疗报告生成。依据病人自述和医患对话，输出具有规定格式的医疗报告。本赛道数据集包括超过3000组医患对话案例样本，覆盖6种儿科疾病，10万余句对话，样本平均对话次数为40次，平均每个样本的对话字数为523个。

赛道三：智能化医疗诊断

就诊过程是一个带有目的的序列化医生-患者交互的过程。智能化医疗诊断是任务型对话系统的重点研究方向。

任务1：面向自动诊疗的对话系统。要求参赛系统根据给出的显性信息（病人自诉中提及的症状、检查），与病人模拟器进行互动以获取更多病人的症状、已做的医疗检查，依据交互内容判断疾病，并给出相应的检查建议。本赛道的数据集超过2000个样本，每个样本包含疾病类别、病人自诉文本、直接信息（病人自诉中明确提及的实体信息，包括症状和检查）、隐藏信息（结合整段医患对话得到的实体及标签，表示患者是否已经有该症状、是否已经做过该检查）。

• 科大讯飞-医疗实体及关系识别挑战赛

电子病历是医疗机构对门诊、住院患者进行临床治疗和指导干预的数字化医疗服务工作记录，包含了大量的患者医学信息。医技报告单是电子病历十分重要组成部分，其中包含了患者详细的检查检验信息，如超声、CT和磁共振等。但是，医技报告单是一种半结构化的数据，不同医生的表述风格不一致，文本形式缺乏统一的规范，因此将其中非结构化的部分转换为结构化的信息是非常重要的，可以有效的提高医生工作效率，优化医疗机构流程。医技领域的命名实体和实体关系识别是目前的研究热点之一，同时也是电子病历信息抽取的重要研究内容。评测任务包含医学实体识别+医学关系抽取。

中文数据集

• Yidu-S4K：医渡云结构化4K数据集

Yidu-S4K 数据集源自CCKS 2019 评测任务一，即“面向中文电子病历的命名实体识别”的数据集，包括两个子任务： 1）医疗命名实体识别：由于国内没有公开可获得的面向中文电子病历医疗实体识别数据集，本年度保留了医疗命名实体识别任务，对2017年度数据集做了修订，并随任务一同发布。本子任务的数据集包括训练集和测试集。 2）医疗实体及属性抽取（跨院迁移）：在医疗实体识别的基础上，对预定义实体属性进行抽取。本任务为迁移学习任务，即在只提供目标场景少量标注数据的情况下，通过其他场景的标注数据及非标注数据进行目标场景的识别任务。本子任务的数据集包括训练集（非目标场景和目标场景的标注数据、各个场景的非标注数据）和测试集（目标场景的标注数据）

• 瑞金医院糖尿病数据集

数据集来自天池大赛。此数据集旨在通过糖尿病相关的教科书、研究论文来做糖尿病文献挖掘并构建糖尿病知识图谱。参赛选手需要设计高准确率，高效的算法来挑战这一科学难题。第一赛季课题为“基于糖尿病临床指南和研究论文的实体标注构建”，第二赛季课题为“基于糖尿病临床指南和研究论文的实体间关系构建”。

（官方提供的数据只包含训练集，真正用于最终排名的测试集没有给出。）

• Yidu-N7K：医渡云标准化7K数据集

Yidu-N4K 数据集源自CHIP 2019 评测任务一，即“临床术语标准化任务”的数据集。临床术语标准化任务是医学统计中不可或缺的一项任务。临床上，关于同一种诊断、手术、药品、检查、化验、症状等往往会有成百上千种不同的写法。标准化（归一）要解决的问题就是为临床上各种不同说法找到对应的标准说法。有了术语标准化的基础，研究人员才可对电子病历进行后续的统计分析。本质上，临床术语标准化任务也是语义相似度匹配任务的一种。但是由于原词表述方式过于多样，单一的匹配模型很难获得很好的效果。

• 中文医学问答数据集

中文医药方面的问答数据集，超过10万条。

• 平安医疗科技疾病问答迁移学习比赛

本次比赛是chip2019中的评测任务二，由平安医疗科技主办。其主要目的是通过从已学习的相关任务中转移知识来改进新任务的学习效果，从而提高模型的泛化能力。本次评测任务的主要目标是针对中文的疾病问答数据，进行病种间的迁移学习。具体而言，给定来自5个不同病种的问句对，要求判定两个句子语义是否相同或者相近。所有语料来自互联网上患者真实的问题，并经过了筛选和人工的意图匹配标注。

• 天池新冠肺炎问句匹配比赛

本次大赛数据包括：脱敏之后的医疗问题数据对和标注数据。医疗问题涉及“肺炎”、“支原体肺炎”、“支气管炎”、“上呼吸道感染”、“肺结核”、“哮喘”、“胸膜炎”、“肺气肿”、“感冒”、“咳血”等10个病种。数据共包含train.csv、dev.csv、test.csv三个文件，其中给参赛选手的文件包含训练集train.csv和验证集dev.csv，测试集test.csv 对参赛选手不可见。每一条数据由 Category，Query1，Query2，Label构成，分别表示问题类别、问句1、问句2、标签。Label表示问句之间的语义是否相同，若相同，标为1，若不相同，标为0。其中，训练集Label已知，验证集和测试集Label未知。示例类别：肺炎问句1：肺部发炎是什么原因引起的？问句2：肺部发炎是什么引起的标签:1 类别：肺炎问句1：肺部发炎是什么原因引起的？问句2：肺部炎症有什么症状标签:0