如何用统计学方法寻找量表的截断值？——潜在剖面分析

最新推荐文章于 2024-10-02 00:23:27 发布

妙趣横生统计学

最新推荐文章于 2024-10-02 00:23:27 发布

阅读量300

点赞数 1

文章标签：人工智能深度学习机器学习

原文链接：https://mp.weixin.qq.com/s?__biz=MzAwOTYyMDY3OQ==&mid=2650407943&idx=1&sn=8d6a37d36557ec1fbe8158f6c71100e6&chksm=835279afb425f0b9b4bdc0ee890ff3272658e33fdf7a624293d78e3b10536b1f4deede053bc0&scene=126&sessionid=0

版权

Nhanes美国营养调查数据库的培训课程来了！

“Nhanes数据挖掘”课程即将开始! 欢迎报名, 发表文章即退款

量表是一种常用的心理测量工具，它可以帮助我们评估个体的心理特征、状态或症状。量表的结果往往是连续的数值，而我们需要的是对个体进行分类，比如是否有某种心理问题或风险。因此有时候如果想要使用某个量表来对群体进行分类（如分为“是”，“否”两类），以便于探讨阳性事件的影响因素，但是却发现这个量表在开发的时候没有官方明确的截断值，此时我们就需要自己来确定一个将个体分为不同类别的临界分数。本文将以一篇关于新冠病毒康复者感知污名的研究为例，介绍一种有效的方法——潜在剖面分析。

这是一篇于2023年3月发表在Frontiers in Public Health(IF=5.2, Q1)上的一项关于新冠病毒康复者感知污名的横断面研究，题名为Perceived stigma among discharged patients of COVID-19 in Wuhan, China: A latent profile analysis，该研究共收集了1,297名武汉第一波新冠康复者的数据，使用了12项新冠感知污名量表（CSS-S）来评估他们在过去两周内感受到的污名。该量表的总分范围为12-48，分数越高表示感受到的污名越大。该研究的目的是通过LPA来识别康复者感知污名的特征，并探索其心理社会影响因素，以及确定量表的截断值。

潜在剖面分析（latent profile analysis，LPA）是一种基于潜在剖面模型（latent profile model，LPM）的统计方法，它可以根据一组连续变量（比如量表的各个题目或维度）将总体划分为多个亚群体（profile），并评估每个个体属于不同亚群体的概率。

LPA的步骤大致如下：

1. 确定要用于分类的变量。这些变量应该是连续的，如果是分类变量，则称为“潜在类别分析”（LCA），原理都是一样的。如果你使用的量表的各条目不是连续尺度，而是分类尺度（如“是”，“否”），则使用LCA。

2. 建立不同类别数目（k）的LPM模型，并比较它们的拟合优度。常用的拟合优度指标有赤池信息准则（Akaike Information Criterion，AIC）、贝叶斯信息准则（Bayesian Information Criterion，BIC）、调整后的贝叶斯信息准则（adjusted Bayesian Information Criterion，aBIC）、熵（entropy）、LMR检验和BLRT检验等。一般来说，AIC、BIC和aBIC越小、熵越大、LMR检验和BLRT检验越显著，说明模型拟合越好。此外，还要考虑模型的简洁性和可解释性，避免过度拟合或欠拟合。

3. 选择最优的LPM模型，并根据变量在不同类别上的条件均值来定义和解释每个类别的特征。此外，还要考虑每个类别的成员数量和比例，以及模型的可解释性，避免出现过小或不确定的类别。

4. 探究影响因素。根据LPM模型的分类结果，并将其作为因变量或自变量与其他变量进行关联分析，比如卡方检验、方差分析、逻辑回归等，以探索不同类别之间的差异或影响因素。

如何用潜在剖面分析寻找量表的截断值？

在没有准确和精确的参考标准的情况下，LPA可以用来确定量表的截断值，方法如下：

1. 将量表的各个题目或维度进行LPA，得到最优的LPM模型和类别划分。

2. 将条件均值最低的类别定义为“非病例”（即没有心理问题或风险），将其他类别定义为“病例”（即阳性事件组）。

3. 以“病例”和“非病例”的二元结果为标准，绘制量表总分的ROC曲线，并计算曲线下面积（AUC）、敏感度、特异度和Youden指数等评价指标。

4. 根据Youden指数的最大值确定量表总分的最佳截断值，使得敏感度和特异度达到最优平衡。

这篇研究进行了LPA，比较了一至五类的LPM模型，结果发现三类模型拟合最好，将康复者分为了三个亚群体：低感知污名组（12.8%）、中等感知污名组（51.1%）和高感知污名组（36.1%）。

然后该研究还进行了逻辑回归分析，探索了不同感知污名组的影响因素。

最后，该研究将低感知污名组定义为“非病例”，将中等和高感知污名组定义为“病例”，并绘制了CSS-S总分的ROC曲线。结果显示，ROC曲线下面积为99.96%，说明CSS-S可以良好区分无感知污名化和有感知污名化的群体。通过计算Youden指数，确定了CSS-S总分的最佳截断值为≥ 20，此时敏感度为0.996，特异度为0.982。