0. 引言
回顾性收集的医疗数据有机会通过知识发现和算法开发来改善患者护理。为了最大的公共利益,广泛重复使用医疗数据是可取的,但数据共享必须以保护患者隐私的方式进行。重症监护医疗信息集市(MIMIC)-III数据库为进入贝斯以色列女执事医疗中心(BIDMC)重症监护室的40000多名患者提供了重症监护数据。重要的是,根据《健康保险可携带性和责任法案》(HIPAA)安全港规定,MIMIC-III被取消识别,患者标识符被删除。MIMIC-III在推动临床信息学、流行病学和机器学习方面的大量研究方面发挥了不可或缺的作用。在这里,我们介绍了MIMIC-IV,它是MIMIC-III的更新,它结合了当代数据并改进了MIMIC-IIII的许多方面。MIMIC-IV采用模块化数据组织方法,突出数据来源,促进不同数据源的单独和组合使用。MIMIC-IV旨在延续MIMIC-III的成功,并支持医疗保健领域的广泛应用。
1. 缩写含义
subject_id :每个患者有唯一的subject_id。
hadm_id:患者的每一次入院会有一个唯一的hadm_id。
transfer_id:患者每一次更换病房会有一个唯一的transfer_id。
stay_id:在相同类型病房内进行转移,则会更新一个transfer_id,但会有相同的stay_id,例如用ICU中的一个病房转移到另一个病房,则stay_id不变,transfer_id更新。
所有id的分配都是随机的,与时间先后无关。
date and time:后缀为date的,分辨率最低为天;后缀为timed的字段,分辨率最低为分钟。
charttime and storetime:分别是测量的记录时间与储存时间,通常以charttime为准。
d and icd:命名为d_开头,为编码表。d_icd开头,为icd编码表。icd结尾的表,为使用icd编码的记录表。
2. Tables
tables分为六个模块,分别为Core、Hosp、ICU、ED、CXR、Note。
2.1 Core
Core模块包含患者跟踪数据。这里描述了人口统计、入院信息和住院病房转院情况。
admission
患者入院信息,以每次入院为单位记录,每条记录有一个单独的hadm_id,hospital_expire_flag只当次住院是否院内死亡,部分院内死亡患者没有deathtime,可能是数据库本身的问题。
Name | data type | Description |
subject_id | INTEGER | 患者id |
hadm_id | INTEGER | 住院id |
admittime | TIMESTAMP(0) | 入院时间 |
dischtime | TIMESTAMP(0) | 出院时间 |
deathtime | TIMESTAMP(0) | 死亡时间 |
admission_type | VARCHAR(40) | 按入院紧迫性分为9种 |
admission_location | VARCHAR(60) | 入院来源 |
discharge_location | VARCHAR(60) | 出院去向 |
insurance | VARCHAR(255) | 保险 |
language | VARCHAR(10) | 语言 |
marital_status | VARCHAR(80) | 婚姻 |
ethnicity | VARCHAR(80) | 种族 |
edregtime | TIMESTAMP(0) | 进急诊时间 |
edouttime | TIMESTAMP(0) | 出急诊时间 |
hospital_expire_flag | SMALLINT | 是否在住院期间内死亡,1为在入院期间内死亡 |
patient
患者信息
Name | data type | Description |
subject_id | INTEGER | |
gender | VARCHAR(1) | 性别 |
anchor_age | INTEGER | 第一次入院年龄(若年龄小于18,则设置为0;大于89岁,则设置为91) |
anchor_year | INTEGER | 第一次入院年 |
anchor_year_group | VARCHAR(255) | 大约真实的入院时间 |
dod | TIMESTAMP(0) | 死亡时间(院内死亡时间与admission表相同,但包含部分院外死亡时间,参考意义不大) |
transfers
病房转移信息
Name | data type | Description |
subject_id | INTEGER | |
hadm_id | INTEGER | |
transfer_id | INTEGER | |
eventtype | VARCHAR(10) | 转移事件描述 |
careunit | VARCHAR(255) | 病房类型 |
intime | TIMESTAMP(0) | 转入时间 |
outtime | TIMESTAMP(0) | 转出时间 |
2.2 Hosp
Hosp模块涵盖的信息包括实验室测量,微生物学,药物管理,和收费诊断等
d_icd_diagnoses
包含国际疾病分类(ICD)第9版和第10版的诊断代码
Name | data type | Description |
icd_code | VARCHAR(10) | ICD编码 |
icd_version | INTEGER | ICD版本 |
long_title | VARCHAR(300) | 诊断名称 |
diagnoses_icd
患者诊断信息表。seq_num代表诊断的优先级,序号越靠前越重要,而低优先级的排序有时并不准确。
有情况一个Hadm_id对应有两套诊断,一套使用icd-9,一套使用icd-10,本质上相同,取一套使用即可
Name | data type | Description |
subject_id | INTEGER | |
hadm_id | INTEGER | |
seq_num | INTEGER | 诊断顺序 |
icd_code | CHAR(7) | 诊断编码 |
icd_version | INTEGER | 编码版本 |
drgcodes
也是与诊断相关的表,使用Diagnosis Related Group(DRG) code.编码,与diagnose表中的主要诊断相对应。
d_icd_procedures
Name | data type | Description |
icd_code | VARCHAR(10) | ICD编码 |
icd_version | INTEGER | ICD版本 |
long_title | VARCHAR(300) | 名称 |
procedures_icd
患者住院期间的手术信息,包括在ICU期间的信息。
Name | data type | Description |
subject_id | INTEGER NOT NULL | |
hadm_id | INTEGER NOT NULL | |
seq_num | INTEGER NOT NULL | 手术顺序 |
chartdate | DATE NOT NULL | 手术时间 |
icd_code | CHAR(7) | 编码 |
icd_version | INTEGER | 编码版本 |
d_labitems
实验室检查定义表
Name | data type | Description |
itemid | INTEGER | 项目编码 |
label | VARCHAR(50) | 项目名称 |
fluid | VARCHAR(50) | 检测的液体 如尿液、血液等 |
category | VARCHAR(50) | 项目类别,如血气、化学等 |
loinc_code | VARCHAR(50) | 对应LOINC编码 |
labevents
病人实验室检查的记录
Name | data type | description |
labevent_id | INTEGER NOT NULL | |
subject_id | INTEGER NOT NULL | |
hadm_id | INTEGER | |
specimen_id | INTEGER NOT NULL | 检验样本编号,每人可以有多个样本;每个样本可以进行多个检验 |
itemid | INTEGER NOT NULL | 项目编码 |
charttime | TIMESTAMP NOT NULL | 检测时间 |
storetime | TIMESTAMP | 记录时间 |
value | VARCHAR(200) | 检测结果 |
valuenum | DOUBLE PRECISION | 数值结果 |
valueuom | VARCHAR(20) | 计量单位 |
ref_range_lower | DOUBLE PRECISION | 最小正常参考值 |
ref_range_upper | DOUBLE PRECISION | 最大正常参考值 |
flag | VARCHAR(10) | 表明实验室指标是否正常 |
priority | VARCHAR(7) | 项目优先级 |
comments | TEXT | 相关自由文本 |
prescriptions
Name | data type | description |
subject_id | INTEGER NOT NULL | |
hadm_id | INTEGER NOT NULL | |
pharmacy_id | INTEGER | 与pharmacy表相连 |
starttime | TIMESTAMP | 开始时间 |
stoptime | TIMESTAMP | 结束时间 |
drug_type | VARCHAR(20) NOT NULL | 药物所占的成分 |
drug | VARCHAR(255) NOT NULL | 药物名称 |
gsn | VARCHAR(10) | The Generic Sequence Number (GSN)药物的编码 |
ndc | VARCHAR(20) | The National Drug Code (NDC)药物编码 |
prod_strength | VARCHAR(255) | 处方自由文本说明 |
form_rx | VARCHAR(25) | 药物容器 |
dose_val_rx | VARCHAR(100) | 处方剂量 |
dose_unit_rx | VARCHAR(50) | 剂量的单位 |
form_val_disp | VARCHAR(50) | 单次处方药量 |
form_unit_disp | VARCHAR(50) | 药量单位 |
doses_per_24_hrs | REAL | 每24小时剂量 |
route | VARCHAR(50) | 给药途径 |
pharmacy
药房数据表,以pharmacy_id字段与prescriptions表相关联,相当于对prescriptions表中各处方信息的补充。
此外,还有微生物培养、收费、订单等表格
2.3 ICU
包含从ICU内使用的临床信息系统收集的信息。记录在案的数据包括静脉给药、呼吸机设置和其他图表项目等。
每个患者每次入院可能有多次icu,每次icu对应一个stay_id。
d_items
包含ICU内发生的所有项目的编码,通过itemid字段与ICU模块内的其他表格关联。
Name | data type | description |
itemid | INTEGER | 项目编码 |
label | VARCHAR(200) | 项目标签 |
abbreviation | VARCHAR(100) | 项目缩写 |
linksto | VARCHAR(50) | 连接到的表名 |
category | VARCHAR(100) | 项目类型,如"Routine Vital Signs" |
unitname | VARCHAR(100) | 测量单位 |
param_type | VARCHAR(30) | 数据类型,如时间、数字 |
lownormalvalue | FLOAT | 正常值参考范围下限 |
highnormalvalue | FLOAT | 正常值参考范围上限 |
ICU stays
入住ICU的时间信息
Name | Data type | description |
subject_id | INT | |
hadm_id | INT | |
stay_id | INT | |
first_careunit | VARCHAR(20) | 进入icu类型 |
last_careunit | VARCHAR(20) | 离开icu类型 |
intime | TIMESTAMP(0) | 进入icu时间 |
outtime | TIMESTAMP(0) | 离开icu时间 |
los | DOUBLE PRECISION | icu天数 |
chartevents
Chartevents包含了一个病人可用的所有图表数据,有些lab数据与labevents表中的数据重复。
Name | Data type | description |
subject_id | Integer | |
hadm_id | Integer | |
stay_id | Integer | |
charttime | Date with times | 检查时间 |
storetime | Date with times | 录入时间 |
itemid | Integer | 项目id |
value | Text | 检查结果 |
valuenum | Decimal number | 检查结果数字形式 |
valueuom | Text | 单位 |
warning | Binary (0 or 1) | 表示是否为手工记录 |
2.4 ED
急诊信息,包含急诊诊断,病人体征等信息。通过subject_id和hadm_id与其他模块相连接。急诊的患者如有hadm_id,则说明该患者住院治疗。ed患者不一定住院,住院的患者也不一定从急诊入院。
diagnosis table
诊断表为患者提供诊断列表。从急诊科出院后确定诊断。
edstays table
急诊科来访的主要跟踪表。它提供了病人进入急诊科和离开急诊科的时间
medrecon table
在进入急诊室时,工作人员会询问病人目前正在服用什么药物。这个过程被称为药物协调,医疗检查表存储了护理人员的调查结果
pyxis table
提供了通过pyxis系统配制药物的信息。
triage table
包含病人在急诊室第一次分诊时生命体征信息
vitalsign table
急诊室收治的病人常规的生命体征需要1-4小时。这些生命体征保存在生命体征表中
vitalsign_hl7 table
急诊收治的病人可通过遥测技术进行监测。每分钟的生命体征都被传送到医院的中央服务器,这些生命体征都被记录在这里。
2.5 CXR
X光胸片文件,源数据是dicom格式,但也提供了jpg格式的下载。包含了胸片及影像学报告。值得注意的是,存在有影像的患者没有住院记录的情况。
cxr-record-list
有一些图像按照路径没有找到,即有文本却找不到对应图像
影像与报告列表
Name | data type | description |
subject_id | INTEGER | |
study_id | INTEGER | 影像学报告编码 |
dicom_id | TEXT NOT NULL | 图像编码 |
path | 图像路径 例: files/p10/p10000032/s50414267/02aa804e-bde0afdd-112c0b34-7bc16630-4e384014.dcm |
cxr-study-list
Name | data type | description |
subject_id | INTEGER | |
study_id | INTEGER | 报告编码 |
path | 报告路径 例: files/p10/p10000032/s50414267.txt |
mimic-cxr-2.0.0-chexpert
使用CheXpert labeler(基于影像学报告的非人工标注,斯坦福与麻省理工合作)标注了14个标签,标签如下表
各标签有四种值,
1:被正面提及
0:被负面提及,如无肺不张
-1:被提到但无法判断,或说法模棱两可
(空值):该特征没有被提到
Atelectasis | 肺不张 |
Cardiomegaly | 心脏肥大 |
Consolidation | 变实 |
Edema | 水肿 |
Enlarged Cardiomediastinum | 纵隔扩大 |
Fracture | 骨折 |
Lung Lesion | 肺部病变 |
Lung Opacity | 肺部浑浊 |
Pleural Effusion | 胸腔积液 |
Pneumonia | 肺炎 |
Pneumothorax | 气胸 |
Pleural Other | 胸膜其他 |
Support Devices | 支持设备 |
No Finding | 无发现(指13个描述性标签中的任何一个都没有出现) |
mimic-cxr-2.0.0-split
提供了参考的训练集、验证集、测试集划分
2.6 Note
(NOT PUBLICLY AVAILABLE): 所有文本报告,出院、超声、新店、影像等报告
MIMIC-IV v2.0
主要变化
①移除了core模块,目前admissions, patients 和 transfers 表格存在hosp模块里;
②移除了新生儿数据,后续将与新生儿重症监护室的数据一起在其他项目中单独发布。
ICU模块
1. Icustays
由于patient表的变化,大约700个stayids(约1%)发生了改变。
2. chartevents, d_items
chartevents表中新增加了itemid=220001,以记录来自MetaVision 的1000多个问题 。大多数记录在案的问题与患者的护理计划有关,并在护士轮班期间(早上 7 点或晚上 7 点)记录在案。
3. ingredientevents
这是一个与 inputevents关联的新表。在 inputevents表中跟踪的每一次静脉给药都与一组成分相关。这些成分包括含水量、热量信息等。 inputevents表支持营养学相关研究,并通过对所有水成分求和以用于评估fluid input。目前,这些成分已从inputevents表中分离出来,添加至新表ingredientevents中。
4. Inputevents
仅删除了包含空值的列:cancelreason
5. procedureevents
删除了以下仅包含空值的列:totalamount, totalamountuom, cancelreason, comments_editedby, comments_canceledby, comments_date, secondaryordercategoryname.
Hops模块
1. Admissions
修复了患者通过急诊入院时缺少 edregtime 和 edouttime 的问题。
2. patients
①dod现在填充了来自州死亡记录的院外死亡。对于入住 ICU 的患者,这一变化已将死亡日期记录从 8,223 条增加到 23,844 条(即,2.0版本中另外有15621名ICU患者的院外死亡记录)。也就是说,2.0版本的mimic Ⅳ中有随访数据了!
②2.0版本中患者纳入MIMIC中的机制有所不同。很大程度上优化了合并同一患者多个医疗记录号码的逻辑。由于此更改,大多数表的数据内容都发生了变化。大约有1%的stays受到了影响。
3. Transfers
修复了hadm_id为NULL的 ED 患者(即只入ED没有入院的患者)的outtime问题。原先存在的问题导致transfers表中所有hadm_id为NULL的患者在院内停留时间是错误的。2.0版本中已经修正了outtime列的这个问题。
4. labevents, d_labitems
①更改了d_labitems表中的43项itemid。
②loinc_code列已被删除。将在官方git代码仓中协作开发,其初始值将来自医院系统。
③许多以前在comments字段中有值的实验室指标现在在value字段中也有值。
5. Microbiologyevents
microbiologyevents表中增加了新的病原体、检验、标本和抗生素。
6. omr
omr是一个新添加的表。 此数据的来源是在线医疗记录,其中包含有个人健康状况的多种信息。从 v2.0 开始, omr 表具有以下信息:血压、身高、体重、BMI和估计肾小球滤过率 (eGFR)。这些值可从住院和门诊访问中获得,并且在许多情况下,患者住院前的“基线”值是可用的。
7. Prescriptions
formulary_drug_cd列已添加回来(以前在MIMIC-III中有)。此列与 emar_detail表中product_code列具有相同的值。