编者
近年来,其实发表有关潜类别分析的文章越来越多,而我们要如何理解运用潜类别分析呢?在研究过程中,我们会发现有许多变量(如社会经济地位、生活压力、疾病症状类型、癌症危险行为等)是不能直接测量的。像社会经济地位这个变量,不可直接测量,由家庭收入、职业状况、教育水平、保险等变量组成,那么该如何把社会经济地位合并成一个变量进行统计分析呢?可以利用潜类别分析。今天,我们就利用一篇BMJ文章来介绍潜类别分析是什么以及如何进行潜类别分析。
本篇是潜变量分析方法系列文字第3篇
提到潜类别分析,我们首先要了解两个基本概念:外显变量和潜在变量。在潜类别分析中外显变量和潜在变量都是类别变量。像社会经济地位这个变量不可直接测量属于潜在变量,而家庭收入、职业状况、教育水平、健康保险则属于外显变量。
潜类别分析(Latent Class Analysis, LCA )是将潜在变量理论与分类变量相结合的一种统计分析技术,通过潜类别模型( Latent Class Model, LCM),用内在的潜在类别变量来解释外显的类别变量之间的关系,使得外显变量之间的关系经过潜在类别变量估计后,能够维持其局部独立性 。
可以将潜类别分析简单地理解为是多个分类变量生成一个新的分类变量,而这个新的分类变量将人群分为几组。
潜类别分析是基于概率模型(潜类别模型)进行分析的,那么该如何进行潜类别分析?进行潜类别分析时,我们往往不知道有几个类别,一般先假定一个类别,然后再逐步增加类别。
我们可以看出潜类别分析中相对重要的步骤就是对模型评价,根据拟合评价指标(AIC、BIC、G2等)进行模型比较,从而确定最佳模型。那么模型评价指标该如何判断?
本公众号回复“沙龙”即可获得代码,PPT,数据等资料 |
案例分享
2021年4月,中国华中科技大学学者在《BMJ》(一区,IF=105.7)发表题为:"Associations of healthy lifestyle and socioeconomic status with mortality and incident cardiovascular disease: two prospective cohort studies" 的研究论文。
一、研究设计
P(Population)研究对象:包括来自美国国家健康和营养检查调查(NHANES)的44462名20岁以上的成年人和来自英国生物银行(UK Biobank)的399537名37-73岁的成年人。
E(Exposure)暴露:
社会经济地位(SES):通过使用家庭收入、职业或就业状况、教育水平和健康保险的潜类别分析得出,并根据项目反应概率定义三个级别(低、中、高)。
健康生活方式得分:包括吸烟、饮酒、体育活动和饮食,总分为0~4分(0分或1分、3分、4分)。
O(Outcome)结局:全因死亡率(NHANES、UK Biobank);
心血管疾病死亡率和发病率(UK Biobank)。
S(Study design)研究类型:回顾性队列研究。
二、统计学方法
1.使用基于家庭收入水平、职业、教育水平和健康保险(每个因素有三个水平)的潜类别分析创建了一个总体的SES变量。根据项目反应概率,确定了三个潜类别,分别代表高、中、低SES。
2.Cox比例风险回归模型:估计SES和结局(全因死亡、心血管死亡和发生)的风险比和95%置信区间。建立两个模型,Model 1调整相关协变量,Model 2 调整相关协变量以及健康生活方式得分。
3.中介分析:计算健康生活方式得分在SES和结局(全因死亡、心血管死亡和发生)之间关联的中介比例。
4.分层分析:根据SES(高、中、低)进行了分层分析,以调查不同SES亚组中成年人的健康生活方式评分与结局的关系。
5.交互作用:为了量化加法和乘法的交互作用,在模型中加入了SES(低;中;高)和健康生活方式得分(0或1;2;3或4分)的乘积项。相乘交互作用用乘积项的95%CI来表示。相加交互作用用交互作用的相对超额风险(RERI)及相应的95%CI来表示。
6.联合作用:根据SES和健康生活方式得分将参与者分为9组,并与高SES和3或4分健康生活方式组相比,估计不同组的死亡率和CVD事件的危险比。
三、主要结果
1.潜类别分析:用AIC、BIC和G2进行模型选择。平均后验概率反映了后验分类的不确定性,0.7或更高的值表示可接受的不确定性。项目反应概率是一种后验概率,用于定义潜在类别。随着潜类别的增加,G2统计量、AIC和BIC都在继续下降。然而,在3个潜类别后,下降趋于平稳。
三个潜类别的平均后验概率均为≥0.77;四个潜类别的第2类和第4类的平均后验概率分别为0.68和0.64,均小于0.70;五个潜类别时仅第1类的平均后验概率小于0.70。就平均后验概率(后验分类的不确定性)而言,三潜类别方案是最好的。
同时,考虑到比较不同社会经济地位个体之间的死亡风险,需要在每组之间进行足够的样本量和事件。然而,在四个潜类别和五个潜类别方案中,“低SES”类的Prevalence(潜类别概率)分别为12%和7%,相对较低。
综上所述,综合考虑模型选择、后验分类的不确定性、潜在类的含义、简约性等统计因素,选择三潜类别方案,并将个体划分为高、中、低SES。
2.基线特征:表1显示了来自美国NHANES和英国生物样本库的参与者,根据社会经济地位(SES)描述的基线特征。
3.生活方式对社会经济地位与死亡率和CVD事件关系的中介分析:在调整生活方式评分和其他协变量后,在US NHANES中,与高SES的成年人相比,低SES的成年人的全因死亡率的HR为2.13(95%CI1.90-2.38)。在UK Biobank中,与高SES的成年人相比,低SES的成年人的全因死亡率的HR为1.96(1.87-2.06),心血管疾病死亡率的HR为2.25(2.00-2.53),心血管疾病发生率的HR为1.65(1.52-1.79)。未调整生活方式评分的风险比较大。将低SES与高SES进行比较时,在US NHANES中,生活方式评分在SES与全因死亡率中介导的比例为12.3%(10.7%-13.9%)。在UK Biobank中,生活方式评分在SES与全因死亡率中介导的比例为4.0%(3.5%-4.4%),在心血管死亡率中介导的比例为3.0%(2.5%-3.6%),在心血管疾病发生率中介导的比例为3.7%(3.1%-4.5%)。发现低 SES 与更高的死亡风险和 CVD 事件显著相关,并且这些关联由生活方式因素适度介导。
4、生活方式和社会经济地位与死亡率和事件CVD的交互作用和联合分析:在美国NHANES中,生活方式和社会经济地位对所有因死亡率没有显著的交互作用,而在英国生物库中,生活方式和社会经济地位在所有主要结果之间观察到乘性和加性交互作用(交互P<0.02;图1)。在两个队列中,在不同社会经济地位亚组的个体中,更健康的生活方式评分与所有主要结果的风险较低相关,而在英国生物样本库中,在来自低社会经济地位亚组的个体中,相关性更强(图1)。
在US NHANES 中,与高 SES 和3或4分健康生活方式的个体相比,低 SES 和0或1分健康生活方式的个体的全因死亡率风险比为 3.53(3.01-4.14);在UK Biobank中,全因死亡率风险比2.65(2.39-2.94)、CVD 死亡率风险比为 2.65(2.09-3.38),CVD 事件风险比为 2.09(1.78-2.46)。死亡和心血管疾病风险最高的是低SES和生活方式最不健康的成年人。
总结
1、潜类别分析的优势
2、潜类别分析的应用
本公众号回复“春分”即可获得代码,PPT,数据等资料 |
本公众提供各种科研服务了!
一、课程培训 2022年以来,我们召集了一批富有经验的高校专业队伍,着手举行短期统计课程培训班,包括R语言、meta分析、临床预测模型、真实世界临床研究、问卷与量表分析、医学统计与SPSS、临床试验数据分析、重复测量资料分析、nhanes、孟德尔随机化等10余门课。如果您有需求,不妨点击查看: 二、数据分析服务 浙江中医药大学郑老师团队接单各项医学研究数据分析的服务,提供高质量统计分析报告。有兴趣了解一下详情: |