现在数据分析方法都太卷！看这篇文章，用多个公开数据库发表柳叶刀子刊

最新推荐文章于 2024-08-25 13:10:44 发布

妙趣横生统计学

最新推荐文章于 2024-08-25 13:10:44 发布

阅读量224

点赞数

文章标签：数据分析数据挖掘

原文链接：https://mp.weixin.qq.com/s?__biz=MzAwOTYyMDY3OQ==&mid=2650410741&idx=1&sn=892d932276c0547e33f050bbcb013db4&chksm=8352735db425fa4bbd352b6021fee20bf02b645a5284cf50b1ffad7585240b5be4dbebf9b3e3&scene=126&sessionid=0

版权

现在面对大型的复杂数据，数据分析方法是真的越来愈复杂。尤其是机器学习，花样太多了。像我今天转载的这篇文章。

使用机器学习对患有慢性危重症的异质性患者进行亚表型分型，以指导个体化体液平衡治疗：一项回顾性队列研究

方法速览

背景：慢性危重症（CCI）患者异质性大，导致重症监护病房（ICU）管理困难。识别亚表型有助于个体化护理，但该项研究尚未得到探索。本研究旨在鉴定CCI患者的亚表型，揭示体液平衡对他们的异质性治疗效果。

方法：在这项回顾性研究中，将 CCI 定义为 ICU 住院时间超过 14 天，并与持续性器官功能障碍共存。研究了来自五个电子医疗记录数据集的数据，这些数据集涵盖了地理上不同的人群（美国、欧洲和中国）。本研究纳入了在第一个 ICU 收治期间符合 CCI 标准的患者。年龄超过 89 岁或 18 岁以下的患者被排除在外。独立采用3种无监督聚类算法进行表型推导和验证。极端梯度提升（XGBoost）用于表型分类器构建。应用参数G公式模型来估计ICU死亡率不同亚型在不同日常体液管理策略下的累积风险。

发现：在来自三个国家的8145名患者中确定了四种亚表型，即表型A、B、C和D。表型A是最轻微和最年轻的亚组;表型B是最常见的组别，其中患者年龄最大，酸碱异常明显，白细胞计数低;表型 C 患者有高钠血症、高氯血症和高分解代谢状态;在表型 D 中，患者伴有最严重的多器官衰竭。所选分类器显示出良好的有效性。所有队列的表型特征均表现出稳健性。亚表型的有益体液平衡阈值区间是不同的。

解释：确定了四种新的表型，揭示了CCI患者体液治疗的不同模式和显著的异质性治疗效果。需要一项前瞻性研究来验证我们的研究结果，这可以为临床实践提供信息并指导未来的个性化护理研究。

分析方法（详述）

1.整体工作流程图

首先，从能够代表不同国家的多个数据库中提取数据。采用了几种数据准备策略。数据集被分类为训练队列、验证 I 队列、验证 II 队列和验证 III 队列。共识 K-means 表型分析最初在 Derivation 队列上进行，然后在验证 I 队列中得到验证。为了提高可重复性，使用潜在图谱分析和混合 SOM 分层聚类表型与共识 K-means 进行比较。采用UMAP和其他可视化协议进行比较。敏感性分析包括去除高度相关的聚类变量、不同方法插补数据中的表型，以及训练队列中插补和聚类的不同组合策略。对表型解释、亚表型与 SOFA 评分之间的相关性进行了进一步分析（以确保表型不是经典临床组和严重程度的简单概括）。

接下来，构建用于亚表型分类的精简分类器，该模型进一步在验证II和III队列中进行表型分配。最后，分析了治疗队列的纵向数据。在有向无环图中，箭头方向定义了干预（Ak、Ak+1、...）、基线变量（L0）、时间因变量（Lk、Lk+1、...）、未测量协变量（U）和结果变量（Y）的潜在因果框架。

采用参数化G公式模型，分析不同治疗策略下每日体液平衡的多个模拟过程，与治疗队列中总体人群的自然病程和各4种表型进行对比，探讨其与ICU生存率的异质性关联。

2.数据集和研究队列

使用了从四个公共重症监护数据库获得的 EHR 数据和来自中国南京的专有真实世界 EHR 数据集——（1）训练队列（MIMIC-IV v1.0，US）（2008–2019）的子集;（2）训练队列（MIMIC-III v1.4 'CareVue'，US）（2001–2008）的子集;（3）验证I队列（eICU-CRD，US）（2014-2015）;（4）验证II队列 (AmsterdamUMCdb/AUMC, Euro)（2003-2016 年）;（5）验证III队列（中国金陵）（2017-2021）。治疗队列是从 MIMIC-IV 和 eICU-CRD 数据库获得的纵向数据

纳入了所有在 ICU 中被诊断为 CCI 的患者。CCI 被定义为 ICU 住院期间存在关键器官功能障碍的长期状态，使用的标准是：（a）ICU 持续时间≥14 天;（b）在第 14 天与持续性器官功能障碍的证据（心血管 SOFA ≥1 或任何其他器官系统评分 ≥2）共存。排除标准是：（a）年龄 >89 岁;（b）年龄<18岁;（c）入住重症监护室的顺序 ≥2

3.表型分析的候选临床变量

在 ICU 住院期间第 14 天从数据集中提取变量。总共从原始数据集中获得了 51 个临床变量。在评估缺失值比例后，去除超过40%的缺失变量，对剩余的25个变量进行进一步分析。并且计算了尿素-肌酐比值作为潜在的分解代谢指标。对于具有多个记录的其他指标，计算和分析平均值。

4.观察结局

主要结局：ICU住院期间的死亡

次要结局：院内死亡、ICU和住院时间以及出院地点

对于AmsterdamUMCdb数据集，仅分析了ICU死亡率和ICU住院时间

5.亚表型的推导与验证

5.1数据预处理程序

队列中存在一些严重的偏差、错误或缺失值。首先，将这些异常值和错误值替换为缺失值。然后，从推导和验证 I 队列中删除高缺失率（>40% 数据缺失）的变量。对于其余变量，使用预测均值匹配（pmm）进行多重插补，并使用三种额外的方法——分类和回归树（CART）、加权预测均值匹配（midastouch）和随机森林插补（rf）进行敏感性分析。通过计算每个变量的平均值和中位数，总共生成了 20 个插补数据集和 2 个合并数据集。

5.2共识聚类

在训练队列中应用了共识聚类。在多指标考虑下确定最优聚类数量，包括（1）共识矩阵的集中度，（2）共识累积密度函数（CDF）曲线的平坦度，（3）CDF曲线下面积的肘点，（4）所有聚类的聚类一致性较高的聚类。在验证 I 队列中执行相同的表型分析框架以进行外部验证。

5.3评估CCI 亚表型的可重复性

进行了两种不同的聚类方法——潜在剖面分析（LPA）和混合自组织图谱（SOM）-分层聚类（hSOM）。对于 LPA，最佳聚类数由贝叶斯信息准则（BIC）、熵、自举似然比检验（BLRT）和 Lo-Mendell-Rubin 检验（LMR）确定。如果统计检验不适用，计算BIC的肘点以确定最佳轮廓数量。熵用于评估模型的准确性，熵接近 0.8 的聚类数被认为是准确的。还考虑了模型稳定性，将样本量阈值设置为每个剖面总体后验模式的 5%。对于hSOM，首先计算一个SOM对象，然后进行分层聚类，最佳聚类数由平方变化之和的肘点确定。

6.亚表型分类器

使用 XGBoost 对亚表型识别分类器进行建模。根据特征重要性仔细选择变量，以构建最终的紧凑分类器。使用训练队列作为训练集。在训练集中使用10 倍交叉验证进行内部验证。验证 I 队列用作外部验证的测试集。使用该模型评估验证 II 和 III 队列表型。绘制了多类受试者工作特征（ROC）曲线并计算曲线下面积（AUC）以评估模型性能。

7.统计分析

7.1采用Kaplan-Meier生存分析来估计ICU住院期间的生存率，并通过log-rank检验进行评估。在生存分析中，将ICU住院期间的死亡事件设置为终点，将ICU住院时间设置为生存时间。

7.2计算 CCI 诊断后 ICU 住院期间的 28 天累积风险。

7.3通过评估亚表型与SOFA评分之间的相关性，以检查亚表型是否由疾病严重程度解释。

7.4检查每种亚表型的合并症。首先通过Shapiro-Wilk检验检查连续变量的高斯分布，然后根据需要表示为平均值（标准差）或中位数（四分位距，IQR）。

7.5为了进行比较，对连续数据采用Kruskal-Wallis检验，对分类数据采用卡方检验。

结果

结果 1 患者和研究队列

本研究共诊断为CCI的8145例患者，其中推导（MIMIC）队列3761例，治疗（MIMIC-IV）队列2136例，验证I（eICU-CRD，US）队列2987例，验证II（AmdsterdamUMCdb，Euro）队列1263例，验证III（中国金陵）队列134例。在所有队列中，男性的CCI比例更高。事实上，老年患者在CCI中总体上占主导地位。训练队列的总体 ICU 死亡率为 18.3%，中位 ICU 持续时间为 20.6 天。在CCI人群中，最常见的入院诊断为循环系统疾病、损伤和中毒、感染和寄生虫病、呼吸系统疾病。

结果 2 亚表型的推导表现出异质性特征

2.1.训练队列中CCI表型的特征（Table 1）

2.2.CCI亚表型的特征（Fig 2）

Fig. 2Characteristics of CCI subphenotypes.

结论：共识聚类确定了 4 类 CCI 亚表型，分别命名为表型 A、B、C 和 D。显示了特征和临床结果的比较。与CCI人群和其他表型相比，表型A患者是病情相对较轻的亚组（SOFA评分最低，年龄最小），生存率往往最高。表型B患者占所有患者中最大比例，年龄最大，碳酸氢盐明显较高，阴离子间隙较低。还发现他们的白细胞计数最低，在总体人群和其他表型中最低。表型C患者多器官功能障碍患者比A型和B型更严重，出现高钠血症和高氯血症。此外，它们还倾向于具有更高的尿素肌酐比率，代表潜在的高分解代谢状态。表型D患者多器官功能障碍最严重，事实上，表型 D 患者的尿素-肌酐比值是所有表型中最低的。此外，表型D患者入院时传染病诊断的比例最高

结果 3 CCI 亚表型的验证、可重复性和灵敏分析

为了评估从训练队列中开发的 CCI 亚表型的可重复性和稳定性，使用相同的共识 k-means 设置对验证 I 队列进行了外部验证，并获得了四个具有相似特征的聚类。CCI 表型 A 至 D 中的变量和 UMAP 分析的成对比较显示共识 k-means、LPA 和 hSOM 之间具有相似性，表明 CCI 亚表型具有良好的重现性（Fig 2 C–D）。灵敏分析获得了相似的亚表型特性。总体而言，这些分析证实了得出的CCI亚表型的可靠性。

结果 4 CCI亚表型的临床结果

4.1在训练队列的所有CCI亚表型中，表型A的ICU死亡率和住院死亡率最低，而表型D的ICU死亡率和医院死亡率最高（Table 1）。在训练队列的表型 A 中，患者往往具有更显着的良好预后比例。表型D是病情最严重的亚型，预后不良的比例最大。表型B和C的预后不如表型D。

4.2在 ICU 住院期间，推导队列、验证I 队列、验证 II 队列和验证 III 队列中共识 K-means 表型的生存分析

Fig.3 Survival analysis for consensus Kmeans phenotyping in the Derivation cohort, Validation I cohort, Validation II cohort, and Validation III cohort during ICU stay. In each subset figure, left side represented the Kaplan–Meier curve plots for four cohorts of 28-day mortality within ICU stay. The X-axis denotes the time (days) after patients were diagnosed with CCI (at Day 14 in ICU) and Y-axis denotes the cumulative hazard. CCI – Chronic critical illness; AUMC – AmsterdamUMCdb dataset.

结论：采用Kaplan-Meier生存分析，计算了ICU住院期间CCI诊断后28天生存的累积风险（Fig 3）。Kaplan-Meier曲线显示，表型A是所有亚表型中最低的，而表型B、C和D在ICU住院期间的短期死亡率更差。在其他验证队列中也观察到类似的结果。

结果 5 CCI亚表型与器官功能障碍严重程度的关系

进一步检查亚表型与疾病严重程度之间的关系，例如 SOFA 评分，以探讨先前确定的 CCI 亚表型是否只是器官功能障碍严重程度的反映。冲积图显示，亚型与SOFA组之间没有完全的直接对应关系。因此，推导的亚表型不能简单地用器官功能障碍的严重程度来解释。

简化的XGBoost分类器表现出良好的效果。绘制了多类ROC曲线并计算了它们的AUC（A：0.903;B：0.791;C：0.900;D：0.948;宏观：0.885;微观：0.889）用于有效性评估。然后，将紧凑模型应用于验证II和III队列，以获得亚表型成员，其亚表型特征与训练队列一致。为了方便临床医生，进一步构建了一个交互式界面应用程序。通过输入这六个指标，临床医生可以很容易地获得单个患者的适当亚表型以支持决策。

本公众提供各种科研服务了！

一、课程培训

2022年以来，我们召集了一批富有经验的高校专业队伍，着手举行短期统计课程培训班，包括R语言、meta分析、临床预测模型、真实世界临床研究、问卷与量表分析、医学统计与SPSS、临床试验数据分析、重复测量资料分析、nhanes、孟德尔随机化等10余门课。如果您有需求，不妨点击查看：

发表文章后退款！2023年郑老师团队多门科研统计直播课程，欢迎报名

二、统计服务

为团队发展，我们将与各位朋友合作共赢，本团队将开展统计分析服务，帮忙进行临床科研。欢迎了解详情：

医学统计服务| 医公共数据库论文一对一指导

妙趣横生统计学

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
现在数据分析方法都太卷！看这篇文章，用多个公开数据库发表柳叶刀子刊

现在面对大型的复杂数据，数据分析方法是真的越来愈复杂。尤其是机器学习，花样太多了。像我今天转载的这篇文章。使用机器学习对患有慢性危重症的异质性患者进行亚表型分型，以指导个体化体液平衡治疗：一项回顾性队列研究方法速览背景：慢性危重症（CCI）患者异质性大，导致重症监护病房（ICU）管理困难。识别亚表型有助于个体化护理，但该项研究尚未得到探索。本研究旨在鉴定CCI患者的亚...
复制链接

扫一扫