基于电子病历的临床医疗大数据挖掘流程与方法

基于电子病历的临床医疗大数据挖掘流程与方法

阮彤1, 高炬2, 冯东雷3, 钱夕元1, 王婷1, 孙程琳1

1. 华东理工大学,上海 200237

2. 上海曙光医院,上海 200025

3. 万达信息股份有限公司,上海 200233

摘要:以医院电子病历为核心的临床数据记录了病人的疾病、诊断和治疗信息。挖掘此类数据,可以辅助医生进行临床科研与临床诊疗。首先提出了临床大数据挖掘过程中碰到的各项难题,总结了临床医疗大数据挖掘的核心流程,流程包括以临床数据集成、基于知识图谱的临床专病库的构建过程、电子病历数据质量的评估方法以及以临床疗效分析与疾病预测为核心的临床医疗大数据应用等任务,进而对流程中的每个任务提出了解决方案,给出了实验结果。最后,展望了未来临床电子病历挖掘应用和技术的发展。

关键词:医疗知识图谱;临床专病库;数据质量评估;电子病历;疾病预测;疗效对比

doi:10.11959/j.issn.2096-0271.2017054

640?wx_fmt=jpeg

论文引用格式:阮彤, 高炬, 冯东雷, 等. 基于电子病历的临床医疗大数据挖掘流程与方法[J]. 大数据, 2017, 3(5): 83-98.

RUAN T, GAO J, FENG D L, et al. Process and methods of clinical big data mining based on electronic medical records[J]. Big Data Research, 2017, 3(5): 83-98.

640?wx_fmt=jpeg

引言

医疗健康大数据研究对辅助医生给病人选择更好的治疗方案,进而提升医疗服务质量,降低医疗成本有积极的作用,得到了各国政府的大力支持。从2013年起,美国、英国在医疗大数据应用方面投入了大量资金[1,2]。2015年3月,我国在国家卫生计划生育委员会网络安全和信息化工作组全体会议上提出“推进健康医疗大数据应用,制定促进健康医疗大数据应用的相关方案,推动健康医疗大数据有序发展”的意见。2016年6月,国务院办公厅颁发了《关于促进和规范健康医疗大数据应用发展的指导意见》,明确指出健康医疗大数据是国家重要的基础性战略资源,要通过其应用,激发深化医药卫生体制改革的动力和活力,提升健康医疗服务效率和质量。

医疗健康大数据包含来自于移动终端的个人健康数据医院临床数据基因数据以及疾病预防控制的流调数据。从长远来说,上述多个来源的数据的融合,能为个人的健康规划、疾病防治以及国家卫生策略提供更好的数据基础。但高质量的数据采集和融合不是一蹴而就的,鲜有机构能够采集到大规模的关联的包含个人健康、基因以及临床信息的病人数据。

相比而言,过去十余年中,随着医疗信息化的不断推进,医疗机构经过长期的历史积累已拥有大量的电子病历(electronic medical record,EMR)数据。对于临床科研而言,与临床实验获得的数据或是人工构造的专病队列数据相比,EMR数据具有采集成本低数据实时等优势。当前已有越来越多的研究[3]将EMR数据用于疗效分析与转归分析等临床科研中。因此,以医院电子病历为基础的临床大数据挖掘工作具有较好的数据基础。

笔者项目团队3年前依托于国家“863”计划项目,建立了包括医院临床医生、医院临床信息化、计算机工程师、数据分析师以及卫生管理的跨学科团队,以心衰和大肠癌两个慢性疾病为核心,展开了临床大数据研究。在研究过程中,碰到了下列问题。

整体挖掘流程问题。挖掘过程是由应用驱动、方法驱动,还是由数据驱动?换而言之,是先整理数据,根据数据找问题,还是基于问题采集数据,寻找合适的挖掘方法。是否存在一个理想的数据挖掘方法,在数据有噪音的情况下,无需数据清洗,也会有比较好的数据结果。

病历文本问题。在临床中,大量的医疗文书以文本形式存在。电子病历的文本包含了病人病史、家族史、症状以及医生根据症状、理化指标等基础数据做出的诊断等描述。更重要的是,临床文本中记录了医生的判断依据以及对各种诊疗行为的效果跟踪。如果说各种明细记录是结果跟踪,那么文本数据就是过程跟踪的基础。而这些重要的信息保存在非结构化信息中,不能被计算机理解和处理。

数据质量(可用性)问题。由于EMR数据来源于多个不同的信息系统,经历了多次版本变化,数据的统一表示、关联和集成存在各种问题。同时,医生录入缺乏语义规范,同一诊断与治疗方案,不同医生的录入结果会不同。另外,EMR数据产生于病人真实的诊疗情况记录,目的并不直接面向科学研究。一个诊疗质量良好的病人记录,未必可以产生满足科研需求的数据记录。

分析与挖掘方法问题。传统医学使用随机临床实验证明疗效,是传统医学研究的基础方法。在大数据场景下,不存在临床对照组,如何证明医学事件之间的因果关系,是目前医学界真实事件研究的话题之一[4]。与此同时,以深度学习为核心的机器学习方法,在疾病的预测、诊疗方法方面会有比较好的效果,然而,这些学习方法可解释性比较差,难以被医学领域的科研工作者认同。

本文针对上述问题进行了研究,介绍了医疗大数据挖掘的整体流程、基于知识图谱的临床文本结构化过程、电子病历数据质量的评估方法及部分挖掘应用的成果。

2  基于电子病历的临床大数据挖掘整体流程

图1展示了基于电子病历的临床医疗大数据的整体流程。第一步,对来自不同医院信息系统的病人数据进行数据集成,形成临床数据中心(clinical data repository,CDR)。数据来源包括医院信息系统(hospital information system,HIS)、临床信息系统(clinical information system,CIS)、实验室信息系统(laboratory information system, LIS)、放射信息管理系统(radioiogy information system,RIS)、影像归档和通信系统(picture archiving and communication system,PACS)和病案系统等信息系统。第二步,基于CDR构造面向特殊疾病的专病库,如大肠癌病例库、心衰病例库等。在构建临床专病库时,要确定符合疾病特征的病例;确定需要的病例字段,对于结构化的字段,需要从原始的电子病历库中抽取,例如年龄与性别,对于半结构化或非结构化字段,需要使用文本抽取等技术,结合知识库对其

  • 10
    点赞
  • 74
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值