潜在类别分析-实操应用

最新推荐文章于 2025-06-12 22:47:31 发布

Psych统计自习室

最新推荐文章于 2025-06-12 22:47:31 发布

阅读量1k

点赞数 21

文章标签：算法大数据数据分析人工智能

本文链接：https://blog.csdn.net/wiink/article/details/139607433

版权

写在前面

上篇讲述了潜在类别分析（以下称为LCA）的概念及应用方法，这篇我们参考一篇文献说一下该方法的应用及实操。

本文举的例子是来自于柳叶刀呼吸医学的文章，文章题目为：急性呼吸窘迫综合征儿科患者表型鉴定：一项潜在类别分析，该文的发文时间为2022年3月。

首先一起来看一下文献的主要内容吧！

本文中，该研究主要使用了潜在类别分析确定了儿童急性呼吸窘迫综合征（ARDS）的两个表型，后续的临床治疗可根据不同的临床表型制定特异性的更为精准的治疗方案。

1背景

潜在类别分析（LCA）确定了成人急性呼吸窘迫综合征（ARDS）的两种表型，以炎症程度为特征。尚无研究使用LCA来识别ARDS患儿的表型，其中发育差异可能很重要。

2方法

这项二次分析使用了 304 名参加 RESTORE 和 BALI 研究的小儿 ARDS （PARDS）儿童。使用在成人中开发的方法，该 LCA 包括人口统计学、临床和血浆生物标志物变量来识别 PARDS 表型。研究了表型与临床相关结局的关联以及儿科数据在成人 ARDS 分类算法中的性能。

3发现

使用LCA，两类模型比一类模型更适合该组（p<0.001）;其他的模型并不适用。一类的特征是炎症生物标志物水平较高，血管加压药使用量增加，脓毒症诊断更频繁，与成人“高炎症”表型一致。PARDS严重程度跨越两种表型。高炎症表型患儿机械通气持续时间更长（10.0d vs 6.6d，p<0.0001），死亡率更高（13.8% vs 2.2%，p=0.0001）。在儿童中，与LCA分级的金标准相比，使用sTNFr1、血管加压药和IL-6或IL-8的成人表型分类算法的AUC分别为0.956和0.954。

4解释

LCA 在 PARDS 中发现了两种表型，其特征与成人相似，包括过度炎症表型的较差结果。在设计和分析未来的儿童临床试验时，应考虑PARDS表型。

以下是小编对本文有关LCA的一些阅读笔记：

首先，LCA的特征是通过同时考虑多个变量而不考虑结果来定义子组。指标的选择纳入是LCA的第一步。本文中作者纳入的变量包含患儿的社会人口学资料（性别、年龄、BMI、种族）、临床指标（体温、氧合指数、血压、细支气管炎、急性肺炎等）、生物标志物（白细胞数、血栓调节酶等）。上述指标并非由作者随意选取纳入，而是具有足够的参考依据。作者在前言部分已表明“有研究证实临床因素和血浆生物标志物作为潜在病理生理学的指标，可以区分这些表型。”

第二，关于本文的分型确定。本文共对1-5种类别进行了模型拟合度的计算，结果如下表所示：

在此表中可以见得，BIC指数最低的为4类别，Entropy值最高的为3类别，然而，在VLMR检验中仅有2类别的P值＜0.05，证明2类别模型优于1类别，在其他类别模型之间的VLMR检验中都不能证实k+1类别优于k类别。此外，在2类别模型中，类别分布为N1，181人（60%）；N2，123人（40%），类别分布较为均衡，而其他类别模型的分布都存在较大的差异。因此，综合上述原因，作者选择了2类别模型。

关于类别的命名，作者可根据探索出来的分型样本特征命名，也可根据编号命名，本文中将分别命名为表型1和表型2.

第三步，对探索出来的模型进行特征描述及分析。可以选择简单的差异性检验，也可以开展多变量回归、构建预测模型。此部分的描述不同的研究者可能有自己的风格，只要结果有理有据，具有一定的临床意义即可。另外有能力的同学可以选择可视化工具，将不同类别的特征用漂亮的图表展示出来，会更吸引审稿专家的眼球。本文中作者将两类别的纳入变量标准化，清晰的展示了两个组别患儿的临床特征差异。

该图将单个连续变量置于 z 标度上，平均值为 0，标准差为 1，表型1 和 2 之间的分离量从左到右列出;在图表的左侧，表型 2 的标准化值较高，在图表的右侧，表型 2 的标准化值较低。

表2为两种表型的生物标志物差异

表3为不同表型的临床结果差异，并使用Wilcoxon 秩和检验或 Fisher 精确检验证明两者间差异具有统计学意义。

此外本研究中作者为实现临床表型便捷稳定的识别，选取检测变量中平均差异最大的几个变量，采用特征曲线计算变量对临床表型的预测程度。参考成人ARDS的表型分类方法探究在儿童ARDS患者中的预测性能，并对模型进行校准。

最后，小编对该文的进行简单总结：

LCA并不是非常复杂的统计学方法，那么这篇文章为什么可以发在柳叶刀的子刊上呢，首先在研究意义上本文识别了儿童ARDS的表型并发现不同表型的特征具有较大差异，可用于指导临床治疗。其次本文根据LCA的结果又构建了预测模型，依据变量特征区分儿童ARDS的两种分型，且预测模型具有良好的效能，使LCA的结果更加贴近临床实际，具有较好的实用性。此外本文的行文逻辑严谨，变量、模型的选择皆有迹可循。因此小编认为适合的统计学方法、新颖实用的临床选题、严谨的逻辑思维是本文如此高的影响因子必不可少的要素。

最后的最后，附上LCA的具体使用方法。大家可使用Mplus或R软件完成LCA的计算。

以下为Mplus的运行代码：

PSYCH统计实验室

写在后面

以上就是本文的全部内容，大家有什么不懂的可以在评论区留言或者私信噢，如果文中有错误也欢迎指出~

参考文献：

[1] Dahmer, M. K., Yang, G., Zhang, M., Quasney, M. W., Sapru, A., Weeks, H. M., Sinha, P., Curley, M. A. Q., Delucchi, K. L., Calfee, C. S., Flori, H., RESTORE and BALI study investigators, & Pediatric Acute Lung Injury and Sepsis Investigators (PALISI) Network (2022). Identification of phenotypes in paediatric patients with acute respiratory distress syndrome: a latent class analysis. The Lancet. Respiratory medicine, 10(3), 289–297. https://doi.org/10.1016/S2213-2600(21)00382-9影响因子： 76.2 Q1

[2] 王孟成、毕向阳《潜变量建模与Mplus应用：进阶篇》