医学NLP领域(主要中文)评测数据集

医学NLP领域(主要中文)评测数据集

来自

Chinese_medical_NLP

评测及比赛

• MEDIQA-2021 ( NAACL 2021 workshop)

​ MEDIQA 2021 解决了医疗领域的三个摘要任务:消费者健康问题摘要、多答案摘要和放射学报告摘要。 在这个共享任务中,还将探索使用不同的评估指标进行总结。

1) 消费者健康问题汇总

​ 消费者健康问题往往包含许多妨碍自动问答 (QA) 的外围信息。 基于对这些问题的手动专家总结的实证 QA 研究表明,性能显着提高了 58% 。 因此,针对消费者健康问题的有效自动摘要方法可以在增强医学问答方面发挥关键作用。

​ 这项任务的目标是促进新总结方法的开发,专门解决长期和潜在复杂的消费者健康问题的挑战。

​ 相关方法应该能够生成一个简明的问题,表达找到原始问题正确答案所需的最少信息。

​ 训练数据:消费者健康问题的 MeQSum 数据集及其摘要可用于训练。 参与者可以使用可用的外部资源,包括但不限于医学 QA 数据集和问题焦点和类型识别数据集。 例如,CHQs 数据集包含 MeQSum 问题的附加注释(例如医疗实体、问题焦点、问题类型、关键字)。

​ 验证和测试集:由美国国家医学图书馆 (NLM) 于 2020 年 12 月收到的消费者健康问题及其相关摘要组成,由医学专家手动创建。

2) 多个答案的总结

​ 不同的答案可以带来互补的观点,这些观点可能有利于 QA 系统的用户。

​ 这项任务的目标是促进多答案摘要方法的发展,该方法可以同时解决由医学问题的多个相关答案引起的聚合和摘要问题。

​ 训练数据:MEDIQA-AnS 数据集可用于训练。 参与者可以使用可用的外部资源(例如现有的医学 QA 数据集)。

​ 验证和测试集:原始答案由医疗 QA 系统 CHiQA生成,该系统仅从可信赖的医疗信息源中搜索答案。 摘要由医学专家手动创建。

3) 放射学报告总结

​ 放射学报告的自动汇总具有多种临床应用,例如加速放射学工作流程和提高临床通信效率。

​ 该任务旨在促进临床总结模型的开发,该模型能够通过总结放射科医师撰写的文本发现来生成放射学印象陈述。

• ICLR-2021-医疗对话生成与自动诊断国际竞赛 (ICLR 2021 workshop)

​ 本次竞赛以自动医疗诊断对话系统的开发为主题,目前设置了两大赛道:医疗对话生成赛道和自动医疗诊断赛道。

1)MedDG:实体感知医学对话生成

​ 该赛道专注于实体感知医学对话生成。形式上,给定医生和患者之间的对话历史 X={X_1,X_2,…,X_K},其中 X_K 是患者的最后一句话,该任务的目标是生成医生的下一个响应 X_{ K+1} 使用尽可能多的正确实体。

​ MedDG是一个以实体为中心的大规模医学对话数据集,涉及12种常见胃肠疾病,从在线健康咨询社区收集了超过17K的对话和385K的话语。每个对话都用五种不同类别的实体进行注释,包括疾病、症状、属性、测试和药物。

2)医疗诊断对话系统

​ 该赛道的目标是构建面向任务的自动医疗诊断对话系统,该系统与患者进行对话以收集他们自我报告之外的其他症状并最终做出疾病诊断。具体来说,该系统只能在开始时访问明确的症状。当它在对话期间请求一个症状时,用户模拟器将采取三个动作之一,包括对阳性症状的 True、对阴性症状的 False 和对于用户目标中未提及的症状的不确定。最大术语数为 22。

​ 构建了一个名为MDD的新医学诊断对话数据集,包括一般领域的12种疾病。将源病历转换为结构化的用户目标,仅包括疾病标签、显性症状和隐性症状,以尽可能保护隐私。与之前的数据集相比,MDD 大了三倍,包括 2,374 个对话、12 种疾病类型和 118 种症状类型。此外,它来源于线下(实体)医院的真实患者,因此更接近真实的临床诊断场景。

• 中文医疗信息处理挑战榜CBLUE数据集

来自

阿里云天池(10个任务)

​ 中文医疗信息处理挑战榜评测长期开放。CBLUE 1.0是由CHIP会议往届的学术评测比赛和阿里夸克医疗搜索业务的数据集组成,包括医学文本信息抽取(实体识别、关系抽取)、医学术语归一化、医学文本分类、医学句子关系判定和医学QA共5大类任务。

​ 1)中文医学命名实体识别(CMeEE)

​ 2)中文医学文本实体关系抽取(CMeIE)

​ 3)临床术语标准化任务(CHIP-CDN)

​ 4)临床试验筛选标准短文本分类(CHIP-CTC)

​ 5)平安医疗科技疾病问答迁移学习(CHIP-STS)

​ 6)医疗搜索检索词意图分类(KUAKE-QIC)

​ 7)医疗搜索查询词-页面标题相关性(KUAKE-QTR)

​ 8)医疗搜索查询词-查询词相关性(KUAKE-QQR)

​ 9)蕴含实体的中文医疗对话生成(MedDG)

​ 10)医疗对话临床发现阴阳性判别(CHIP-MDCFNPC)

• 中国计算语言学大会CCL-2021智能医疗对话诊疗评测任务

​ 本次智能对话诊疗评测设置3个赛道。

赛道一:医患对话理解

​ 医患对话理解旨在对问诊文本信息进行信息抽取,主要包括两个任务,分别是命名实体识别和症状检查识别。

​ 任务1:命名实体识别。从医患对话文本中识别出五类重要的医疗相关实体。

​ 任务2:症状识别。根据医患对话文本,识别出病人具有的症状信息。 本赛道数据集包括超过3000组医患对话案例样本,覆盖6种儿科疾病,10万余句对话,样本平均对话次数为40次, 平均每个样本的对话字数为523个。

赛道二:医疗报告自动生成

​ 医疗报告自动生成旨在对问诊过程中进行信息的总结,任务要求参赛团队能依据病人自述和医患对话, 输出具有规定格式的医疗报告。报告需要包含6个部分:主诉、现病史、辅助检查、既往史、诊断和建议。

​ 任务1:医疗报告生成。依据病人自述和医患对话,输出具有规定格式的医疗报告。 本赛道数据集包括超过3000组医患对话案例样本,覆盖6种儿科疾病,10万余句对话,样本平均对话次数为40次, 平均每个样本的对话字数为523个。

赛道三:智能化医疗诊断

​ 就诊过程是一个带有目的的序列化医生-患者交互的过程。智能化医疗诊断是任务型对话系统的重点研究方向。

​ 任务1:面向自动诊疗的对话系统。要求参赛系统根据给出的显性信息 (病人自诉中提及的症状、检查),与病人模拟器进行互动以获取更多病人的症状、已做的医疗检查, 依据交互内容判断疾病,并给出相应的检查建议。 本赛道的数据集超过2000个样本,每个样本包含疾病类别、病人自诉文本、直接信息 (病人自诉中明确提及的实体信息,包括症状和检查)、隐藏信息(结合整段医患对话得到的实体及标签,表示患者是否已经有该症状、是否已经做过该检查)。

• 科大讯飞-医疗实体及关系识别挑战赛

​ 电子病历是医疗机构对门诊、住院患者进行临床治疗和指导干预的数字化医疗服务工作记录,包含了大量的患者医学信息。医技报告单是电子病历十分重要组成部分,其中包含了患者详细的检查检验信息,如超声、CT和磁共振等。但是,医技报告单是一种半结构化的数据,不同医生的表述风格不一致,文本形式缺乏统一的规范,因此将其中非结构化的部分转换为结构化的信息是非常重要的,可以有效的提高医生工作效率,优化医疗机构流程。医技领域的命名实体和实体关系识别是目前的研究热点之一,同时也是电子病历信息抽取的重要研究内容。评测任务包含医学实体识别+医学关系抽取。

中文数据集

• Yidu-S4K:医渡云结构化4K数据集

​ Yidu-S4K 数据集源自CCKS 2019 评测任务一,即“面向中文电子病历的命名实体识别”的数据集,包括两个子任务: 1)医疗命名实体识别:由于国内没有公开可获得的面向中文电子病历医疗实体识别数据集,本年度保留了医疗命名实体识别任务,对2017年度数据集做了修订,并随任务一同发布。本子任务的数据集包括训练集和测试集。 2)医疗实体及属性抽取(跨院迁移):在医疗实体识别的基础上,对预定义实体属性进行抽取。本任务为迁移学习任务,即在只提供目标场景少量标注数据的情况下,通过其他场景的标注数据及非标注数据进行目标场景的识别任务。本子任务的数据集包括训练集(非目标场景和目标场景的标注数据、各个场景的非标注数据)和测试集(目标场景的标注数据)

• 瑞金医院糖尿病数据集

​ 数据集来自天池大赛。此数据集旨在通过糖尿病相关的教科书、研究论文来做糖尿病文献挖掘并构建糖尿病知识图谱。参赛选手需要设计高准确率,高效的算法来挑战这一科学难题。第一赛季课题为“基于糖尿病临床指南和研究论文的实体标注构建”,第二赛季课题为“基于糖尿病临床指南和研究论文的实体间关系构建”。

​ (官方提供的数据只包含训练集,真正用于最终排名的测试集没有给出。)

• Yidu-N7K:医渡云标准化7K数据集

​ Yidu-N4K 数据集源自CHIP 2019 评测任务一,即“临床术语标准化任务”的数据集。 临床术语标准化任务是医学统计中不可或缺的一项任务。临床上,关于同一种诊断、手术、药品、检查、化验、症状等往往会有成百上千种不同的写法。标准化(归一)要解决的问题就是为临床上各种不同说法找到对应的标准说法。有了术语标准化的基础,研究人员才可对电子病历进行后续的统计分析。本质上,临床术语标准化任务也是语义相似度匹配任务的一种。但是由于原词表述方式过于多样,单一的匹配模型很难获得很好的效果。

• 中文医学问答数据集

​ 中文医药方面的问答数据集,超过10万条。

• 平安医疗科技疾病问答迁移学习比赛

​ 本次比赛是chip2019中的评测任务二,由平安医疗科技主办。其主要目的是通过从已学习的相关任务中转移知识来改进新任务的学习效果,从而提高模型的泛化能力。 本次评测任务的主要目标是针对中文的疾病问答数据,进行病种间的迁移学习。具体而言,给定来自5个不同病种的问句对,要求判定两个句子语义是否相同或者相近。所有语料来自互联网上患者真实的问题,并经过了筛选和人工的意图匹配标注。

• 天池新冠肺炎问句匹配比赛

​ 本次大赛数据包括:脱敏之后的医疗问题数据对和标注数据。医疗问题涉及“肺炎”、“支原体肺炎”、“支气管炎”、“上呼吸道感染”、“肺结核”、“哮喘”、“胸膜炎”、“肺气肿”、“感冒”、“咳血”等10个病种。 数据共包含train.csv、dev.csv、test.csv三个文件,其中给参赛选手的文件包含训练集train.csv和验证集dev.csv,测试集test.csv 对参赛选手不可见。 每一条数据由 Category,Query1,Query2,Label构成,分别表示问题类别、问句1、问句2、标签。Label表示问句之间的语义是否相同,若相同,标为1,若不相同,标为0。其中,训练集Label已知,验证集和测试集Label未知。 示例 类别:肺炎 问句1:肺部发炎是什么原因引起的? 问句2:肺部发炎是什么引起的 标签:1 类别:肺炎 问句1:肺部发炎是什么原因引起的? 问句2:肺部炎症有什么症状 标签:0

• 中文医患问答对话数据

​ 来自某在线求医产品的中文医患对话数据。

​ MedDialog 数据集包含医生和患者之间的对话(中文)。 它有 110 万条对话和 400 万条话语。 数据在不断增长,更多的对话将被添加。 原始对话来自 haodf.com。 数据版权归 haodf.com.所有。

• 中文医学问答数据

​ 包含六个科室的医学问答数据,来源不明。

  • 1
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: cmedqa2是一个中文医学问答数据集,旨在提供医学领域的问题和答案的资源。该数据集包含了大量关于医学的问题和对应的回答,涵盖了各个医学专业领域。 cmedqa2的建立有助于医学研究人员、医生和学生们获取医学知识和解决问题。通过分析该数据集,可以对医学问题回答的质量进行评估和改进,提高医学提问和回答的准确性和权威性。 此外,cmedqa2还为机器学习和人工智能领域的研究者们提供了一个用于训练和评估医学问答系统的数据集。通过使用这个数据集,研究者们能够构建和优化医学问答模型,从而为人们提供更好的医学咨询和帮助。 cmedqa2数据集的开放和分享,也为医学领域的知识传播和共享提供了便利。研究人员和医生们可以通过该数据集来解决一些复杂的医学问题,同时还可以将他们的研究和经验分享给其他人,促进医学领域的进步和发展。 综上所述,cmedqa2是一个有益的中文医学问答数据集,对于医学研究、教育和人工智能的发展都具有重要的意义。它为医学社区提供了一个丰富的资源,有助于改进医学问答的质量和效果,推动医学知识的传播和共享。 ### 回答2: cMedQA2是一个中文医学问答数据集,它包含了大量的中文医学问题和对应的答案。这个数据集主要目的是提供给研究人员一个可以用于开发和评估基于医学自然语言处理NLP)系统的资源。 cMedQA2数据集的问题涵盖了多个医学领域,包括病理学、药物学、医疗设备等。每个问题都有一个单一的答案,答案可以是一个具体的医学术语、一个诊断结果、一个治疗建议等。这些问题和答案都是由专业的医学功底人员提供,确保其准确性和可信度。 研究人员可以使用cMedQA2数据集来训练和改进他们的医学NLP系统。通过使用这个数据集,他们可以开发出能够回答医学问题、提供诊断、推荐治疗方案等功能的智能系统。 此外,cMedQA2数据集还可以用于评估医学NLP系统的性能。研究人员可以使用已有的模型对数据集进行测试,评估其在回答医学问题方面的准确性和效果。 总之,cMedQA2是一个重要的中文医学问答数据集,它为研究人员提供了一个用于开发和评估医学NLP系统的宝贵资源。通过使用这个数据集,我们可以进一步推动医学人工智能领域的发展,提高医疗服务的质量和效率。 ### 回答3: cMedQA2是一个中文医学问答数据集。它是由清华大学计算机科学与技术系和北京大学生命科学学院联合发布的,旨在促进医学领域自然语言处理人工智能研究。 cMedQA2数据集包含大量医学领域的问题和相应的答案,涵盖了广泛的医学主题,如疾病诊断、治疗方法、药物使用等。这些问题和答案都是由医学专家和研究人员提供的,因此具有较高的可靠性和专业性。 研究人员可以利用cMedQA2数据集进行医学问答系统的开发和优化。通过分析数据集中的问题和答案,研究人员可以设计出更准确、高效的医学问答算法,帮助患者更好地获取医学信息。 此外,cMedQA2还可以用于医学知识图谱的构建和扩展。通过将数据集中的问题与答案与现有的医学知识图谱进行关联,可以提高知识图谱的完整性和准确性,为医学研究和临床实践提供更全面的支持。 总之,cMedQA2是一个丰富的中文医学问答数据集,为医学领域自然语言处理人工智能研究提供了重要的资源。它有助于开发更智能化的医学问答系统,为患者提供更好的医疗服务。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值