基于数据空间的电子病历数据融合与应用平台

基于数据空间的电子病历数据融合与应用平台

包小源1,2, 张凯3, 金梦1,2, 谢双莲3, 宋锴3

1 北京大学医学信息学中心,北京 100191

2 国家医疗服务数据中心,北京 100191

3 北京大学医学部,北京 100191

 

摘要为了建立高效可扩展且易于管理的数据融合与应用平台,利用数据空间技术,按照数据敏感性将电子病历数据按照原始数据空间、匿名数据空间、模型数据空间的框架进行集成、融合,对匿名数据进行二次分析与挖掘,并针对各数据空间设计实现了不同的存储、安全保护、数据访问机制。平台已在国家医疗服务分析以及北京大学附属医院医疗能力、质量、效率的分析中得到应用。

关键词 电子病历 ; 数据平台 ; 数据空间 ; 数据质量 ; 数据脱敏

论文引用格式:

包小源, 张凯, 金梦, 谢双莲, 宋锴.基于数据空间的电子病历数据融合与应用平台. 大数据[J], 2019, 5(6):47-61

BAO X Y, ZHANG K, JIN M, XIE S L, SONG K.A data-space based platform for the integration and application of electronic health records[J], 2019, 5(6):47-61


1 引言

我国电子病历的应用越来越广泛,使用电子病历数据进行临床研究、医院管理以及数据共享利用的研究越来越常见。做到数据收集、数据质量控制、数据分析处理、分析模型发布的“兼容差异、深入利用”,是承担国家医疗数据中心数据平台建设任务的基本要求。其中“兼容差异”规则是指在数据输入端,可以读入目前主流应用生成的数据文件格式,可以识别语义相容的数据内容,不同版本不同标准的数据(如疾病编码标准、手术编码标准、病历编码标准)都可以向一个版本进行映射与转换等;在输出端,则可以按照需求定制输出接口与输出格式,包括变量的定制、值的自定义等。“兼容差异”的规则主要用于应对我国由于各种实际系统建设、应用差异所导致的数据差异,最大限度地兼容各个医院的数据,并使之能在一个基准线上进行分析。同时,要对差异不大的数据(如病案首页)、差异较大的数据(如电子病历文档以及病例系统数据)进行区分处理,最大限度地提高处理效率。“深入利用”规则既要求设计能够集成、融合所有数据进行各个维度、各个层面的分析建模的平台,又需要平台的结构能够保护敏感数据,同时面向特定需求发布匿名数据,进而利用各种优质资源进行数据挖掘分析、二次利用,并将分析结果、模型也作为数据进行存储、管理。

2 国家医疗数据中心系统架构

国家医疗数据中心所获得的数据主要来自医院的不同数据源,包括病历系统、影像系统(PACS)、检验系统(LIS)等,数据类型也包括了文本、图像、视频等多种形式。对于同一家医院,数据可能经历多次迭代,期间可能有错误数据的替换、缺失数据的补充等数据层面的操作。为了管理分散、异构的数据,国家医疗数据中心建立了以数据空间技术为基础的三层结构,在层次内部,针对数据模式固定的数据采用数据仓库进行管理。

数据空间是与主体相关的数据及其关系的集合,主体、数据集、服务是数据空间的3个要素。在数据模型上,内部的数据不依赖严格的数据模式,可以以一种松散的数据模式来组织。在构建方式上,数据空间不需要提前提出所有可能的需求以设计合适的数据库模式,而是在演化过程中,根据新增的需求建立主体、数据集和服务三者之间的关系和逻辑,同时可以根据不断改变的需求,以较低的成本重新建立新的关系。数据空间包含围绕数据集提供的服务,可以对业务过程进行很好的分层和组织。

数据仓库是一系列具有继承性、主体性和持久性的数据集合,与数据空间不同,数据仓库需要有固定的数据模式,对于数据的查询效率有很好的提升,但对于数据变化的适应比较迟钝,因此国家医疗数据中心仅对一些有固定数据模式的数据(如病案首页)采用基于数据仓库的管理。

目前国家医疗数据中心主要提供数据集成、匿名化处理及数据查询与分析服务。为保证敏感数据的安全,从数据存储结构和结构内部脱敏操作两个层面进行了处理。根据涉及的数据的敏感性,通过物理隔离的3层数据空间进行数据管理,即原始数据空间、匿名数据空间、模型数据空间。

原始数据空间的数据集为直接从安全通道获取的原始数据,这部分数据未经过任何脱敏操作,因此所有数据都以加密形式存储,并且有物理隔离和严格控制的访问策略。在这一层次主要进行数据清洗以及基本的数据有效性的校验,因此在这一层次的数据迭代次数是最多的。符合数据有效性检验的数据均视为合格数据,进行脱敏处理后,下发至匿名数据空间,使得数据迭代的成本降至最低。

匿名数据空间主要进行匿名数据的管理。首先去除相应字段,再使用训练好的机器学习模型识别自由文本中的敏感信息,予以去除。将经过脱敏的匿名化数据输入匿名数据空间,建立匿名数据库;提取的敏感数据被存储在与匿名数据空间有物理隔离的模型数据空间的敏感信息数据库中。在匿名数据空间中,部分数据(如病案首页)有较固定的数据模式,还需进行部分关键信息的抽取和加载,并存入数据仓库。

模型数据空间的数据集为下发的模型数据,根据用户的需求,将所需的数据下发至用户的虚拟空间,进行模型计算。模型数据空间整合用户的需求,同时,这些需求也进一步完善了各数据空间的数据组织和管理。

各层次的数据存储均使用多级存储机制,采用Hadoop开发团队开发的开源Hadoop分布式文件系统(Hadoop distributed file system,HDFS)。在不同的物理磁盘上保存至少3份数据的备份,以保证数据的可靠性。

总体而言ÿ

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值