Nhanes嫌老？新晋顶流MIMIC-IV了解一下，三分之一二区以上 | MIMIC数据库周报（5.29~6.4）...

最新推荐文章于 2024-11-12 17:48:44 发布

公共数据库与孟德尔随机化

最新推荐文章于 2024-11-12 17:48:44 发布

阅读量3.3k

点赞数 18

文章标签：数据库

本文链接：https://blog.csdn.net/weixin_47988917/article/details/139640169

版权

重症医学数据库（MIMIC）是由计算生理学实验室开发的公开数据集，其中包括与数千个重症监护病房入院相关的去识别化健康数据，致力于推动临床信息学、流行病学和机器学习的研究。

MIMIC数据库于2003年在美国国立卫生研究院的资助下，由美国麻省理工学院计算生理学实验室、美国哈佛医学院贝斯以色列女执事医疗中心(Beth Israel Deaconess Medical Center，BIDMC)和飞利浦医疗公司共同建立。

MIMIC 数据库目前已经产生了MIMIC Ⅱ、Ⅲ、Ⅳ三个版本，包含了BIDMC所有内外科ICU患者的数据。MIMIC Ⅲ数据库收集了BIDMC 2001年6月至2012年10月ICU收治的53423例成年患者数据和2001年至2008年收治的7870例新生儿重症患者数据。MIMIC Ⅳ数据库在MIMIC Ⅲ的基础上做了一些改进，包括数据更新和部分表格重构，收集了2008至2019年BIDMC收治的超过19万名患者、45万次住院记录的临床数据。

数据库收集了三类数据：临床数据，从ICU信息系统和医院档案中汇总;高分辨率生理数据，从床边监护仪获得;死亡数据，来自社会保障局死亡档案。

2024.5.29-2024.6.4PubMed数据库“标题/摘要：MIMIC-IV OR MIMIC-III”搜索发现，共发表14篇MIMIC-IV论文。其中1篇一区、3篇二区。

1.外国学者文章介绍（一）

文章题目：重症监护病房患者连续肠内营养期间血糖水平的每日变化：一项回顾性观察性研究。

研究背景：昼夜节律计时系统协调生理功能的每日周期，包括葡萄糖代谢和胰岛素敏感性。

研究目的：本研究的目的是在控制了潜在的偏倚来源后，观察重症患者在持续肠内营养期间血糖水平的24小时变化。

数据来源：从重症监护医学信息市场(MIMIC)-IV数据库中提取了在重症监护室（ICU）至少停留4天并接受肠内营养的成人患者的带时间戳的临床数据。

方法：配对SpO2 和SaO2 测量值与时间对齐，并与各种其他社会人口统计学和参数相结合，以提供每例患者的详细代表。

结果：总共有 207,647 名 ICU 患者（3,948 名男性和 2,981 名女性）在肠内营养期间收集了 6,929 次葡萄糖测量值。使用线性混合效应模型，一天中的时间对血糖水平有显著影响（P<0.001），早上10:00的峰值为9.6 [9.5-9.6;估计的边际平均值，95% CI] mmol/L，晚上02:00的谷值为8.6 [8.5-8.6] mmol/L。XGBoost 回归模型发现一天中的时间对葡萄糖水平有类似的影响。

结论：这些结果表明，即使在持续肠内营养期间，ICU患者的血糖水平也有明显的24小时变化。这种24小时的模式仍然存在调整后的潜在来源的偏见，这表明它可能是内源性生物节律的结果。

2.外国学者文章介绍（二）

文章题目：利用Gerchberg-Saxton算法改善深度学习医疗应用中的公平性。

研究背景：深度学习(DL)因其促进早期诊断、与预后相关的治疗识别以及不同患者预后预测的能力而在医疗保健领域获得突出地位。然而，由于高度可变的医疗实践和非系统的数据收集方法，深度学习可能不幸地加剧偏见和扭曲估计。例如，抽样偏差的存在对任何统计模型的有效性和可泛化性提出了重大挑战。即使使用深度学习方法，选择偏差也可能导致不一致、次优或不准确的模型结果，特别是对于代表性不足的人群。因此，如果不解决偏见，更广泛地实施DL方法可能会造成意想不到的伤害。

数据来源：本研究利用了重症监护医学信息市场（MIMIC）III 1.4版数据库。

方法：在这项研究中，我们采用MIMIC-III数据集来预测死亡率，同时证明不同种族群体之间的偏倚。利用30个生命体征特征来训练DL分类模型，该模型预测患者入院后24小时内的死亡率。我们研究了一种新的偏见减少方法，该方法利用Gerchberg-Saxton频域变换以及从种族-民族偏见的角度对结果的相应影响。为了评估Gerchberg-Saxton（GS）算法在MIMIC-III上的偏倚缓解方面的有效性，我们使用从基准数据集和GS应用数据集单独获得的真阳性、真阴性、假阳性和假阴性率，在敏感人群中对模型的准确性、人口统计学奇偶性和错误率奇偶性公平性约束进行了分析。

结果：本研究展示了一种通过Gerchberg-Saxton算法对生物医学数据进行先进频域操作的偏倚缓解方法。随着GS算法在MIMIC-III上的应用，我们说明了信息分布对死亡率预测精度的影响，这导致了对各种种族群体的更均匀和公平（在某些情况下增加）的模型预测。

结论：虽然需要进一步的研究来调查GS算法在其他环境中的全部容量和性能，并与其他模式一起探索其在医疗应用中的全部潜力，但我们认为我们的研究具有重要意义，并有可能推进目前正在进行的研究偏倚缓解的努力。

3.中国学者文章介绍（一）

文章题目：分析个性化对医疗保健联邦学习公平性的影响。

研究背景：随着机器学习(ML)在医疗保健领域的使用越来越流行，人们也越来越担心潜在的偏见和隐私等风险。一种对策是使用联邦学习(FL)来支持协作学习，而不需要跨不同组织共享患者数据。然而，各参与方之间数据分布的内在异质性为探索FL中的群体公平性带来了挑战。虽然FL中的个性化可以解决数据异质性引起的性能下降，但其对群体公平性的影响尚未得到充分研究。因此，本研究的主要重点是严格评估个性化FL对医疗保健领域群体公平的影响，全面了解个性化FL如何影响临床结果中的群体公平。

数据来源：我们使用两个突出的现实世界电子健康记录(EHR)数据集，即eICU和MIMIC-IV进行实证分析。

方法：我们的方法涉及个性化FL和两个基线之间的全面比较:独立训练，其中模型是在没有FL协作的情况下独立开发的，以及标准FL，旨在通过fedag算法学习全局模型。我们采用Ditto作为我们的个性化FL方法，它使FL中的每个客户都可以通过多任务学习开发自己的个性化模型。我们的评估是通过一系列评估来实现的，比较了这些方法的预测性能(即AUROC和AUPRC)和公平性差距(即EOPP, EOD和DP)。

结果：个性化FL在两个数据集的独立训练中展示了卓越的预测准确性和公平性。然而，与标准FL相比，个性化FL显示出更高的预测准确性，但并不总是提供更好的公平结果。例如，在24小时住院死亡率预测任务中，个性化FL在eICU数据集中实现了跨种族的平均EOD为27.4%，在MIMIC-IV中实现了47.8%。相比之下，标准FL的eICU和MIMIC-IV的EOD分别为26.2%和42.0%，而独立训练的EOD分别为69.4%和54.7%。我们的分析表明，与独立培训相比，个性化培训有可能提高公平性，但与标准培训相比，它并不能始终确保公平性的提高。我们的研究结果还表明，虽然个性化可以提高偏见更大的医院的公平性(即，医院在独立培训中存在更大的公平差距)，但它可能会加剧偏见较小的医院的公平性问题。

结论：这些见解表明，个性化FL与额外的战略设计的集成可能是同时提高预测准确性和减少公平性差异的关键。本文概述的发现和机会可以为未来研究的研究议程提供信息，以克服局限性并进一步推进卫生公平研究。

4.中国学者文章介绍（二）

文章题目：提高急性呼吸窘迫综合征患者预后预测模型通用性的预训练微调方法。

研究背景：重症监护病房（ICU）危重患者急性呼吸窘迫综合征（ARDS）的早期预测是近年来研究的热点。然而，根据一家医院的数据训练的预测模型可能无法很好地推广到其他医院。

研究目的：因此，有必要开发一个准确的和通用的ARDS预测模型，适用于不同的医院或医疗中心。

数据来源：我们分析了分别来自Philips eICU研究所（eICU-CRD）和重症监护医学信息集市（MIMIC-IV）数据集的200，859和50，920例确诊为ARDS后24小时内住院患者的电子病历。

方法：根据ARDS诊断后24 ~ 72 h的病情或转归，将患者分为3组，包括快速死亡组、长期住院组和恢复组。为了提高预测性能和可推广性，应用了“预训练-微调”方法，其中我们在eICU-CRD数据集上预训练模型，并仅使用MIMIC-IV数据集的一部分（35%）执行模型微调，然后在MIMIC-IV数据集的剩余数据上测试微调模型。众所周知的机器学习算法，包括逻辑回归，随机森林，极端梯度增强和多层感知器神经网络，被用来预测ARDS的结果。使用受试者工作特征曲线下面积（AUC）评价预测性能。

结果：结果表明，在一般情况下，多层感知器神经网络优于其他模型。使用预训练微调在预测ARDS结果方面取得了改善，MIMIC-IV数据集的微AUC为0.870，比预训练模型提高了0.046。

结论：提出的预训练微调方法可以有效地提高模型的泛化能力，从一个到另一个数据集在ARDS预测。

5.中国学者文章介绍（三）

文章题目：预测重症监护病房患者插管:一种改善患者管理的深度学习方法。

研究背景：对于重症监护室（ICU）的患者，插管时机与患者的结局有显著相关性。然而，由于ICU数据的噪声、稀疏、异质和不平衡性质，插管时间的准确预测仍然是一个未解决的挑战。

研究目的：在这项研究中，我们的目标是开发一个预处理ICU数据的工作流程，并开发一个定制的深度学习模型来预测插管的需求。

数据来源：重症监护医学信息市场（MIMIC）-III（ICU数据集）。

方法：将插管预测任务转化为时间序列分类任务，以提高预测精度。我们精心设计了一系列的数据预处理步骤来处理多模态噪声数据。首先，我们离散化的顺序数据和解决丢失的数据使用插值。接下来，我们采用采样策略来解决数据不平衡问题，并对数据进行标准化，以加快模型收敛速度。此外，我们采用特征选择技术，并提出了一个集成模型，以联合收割机结合不同深度学习模型学习的特征。

结果：在重症监护医学信息市场（MIMIC）-III（ICU数据集）上评估了性能。我们提出的深度特征融合方法实现了0.8953的受试者工作曲线（ROC）曲线下面积（AUC），超过了其他深度学习和传统机器学习模型的性能。

结论：我们提出的深度特征融合方法被证明是预测插管的可行方法，并且优于其他深度学习和经典机器学习模型。该研究证实，高频时变指标，特别是平均血压（MeanBP）和外周血氧饱和度（SpO2），是预测插管的重要风险因素。