R语言文章复现：潜类别分析在观察性研究中的应用

最新推荐文章于 2025-04-29 22:04:28 发布

妙趣横生统计学

最新推荐文章于 2025-04-29 22:04:28 发布

阅读量1.8k

点赞数 20

文章标签： r语言开发语言

本文链接：https://blog.csdn.net/weixin_44693403/article/details/137371838

版权

编者

潜类别分析（LCA）是潜在变量分析的一种，是将潜在变量理论与分类变量相结合的一种统计分析技术，是探讨存在统计学关联的分类外显变量背后的类别潜在变量的技术。ＬＣＡ的目的在于利用最少的潜在类别数目解释外显分类变量之间的关联，并使各潜在类别内部的外显变量之间满足局部独立的要求。

本文是潜变量系列文章第一篇 !

观察性研究包括横断面研究、队列研究、病例对照研究。

本篇推文以横断面研究为例进行复现

本公众号回复“ 沙龙”即可获得 PPT，数据等资料

案例分享

2022年6月，中国北京大学学者在《Bmc Geriatrics》（三区，IF=4.1）发表题为："Multimorbidity patterns and associated factors in older Chinese: results from the China health and retirement longitudinal study" 的研究论文。

一、摘要

标题：中国老年人的多病模式和相关因素：来自中国健康与退休纵向研究的结果

背景： 本研究旨在调查中国老年人的多病模式及其相关因素。

方法： 从2018年中国健康与退休纵向研究（CHARLS）中抽取了10479名年龄至少为60岁的参与者。根据14种自我报告的慢性疾病进行潜在类别分析（LCA），以确定不同的多病类别。多项logit模型用于分析多病模式的相关因素，重点关注个人的人口统计学特征、社会经济地位（SES）和健康行为。

结果：在10，479名参与者（平均年龄【标准差】:69.1【7.1】）中，65.6%被确定患有多种疾病。LCA确定了五个多病类：相对健康类（49.8%）、血管类（24.7%）、呼吸类（5.6%）、胃病类（14.5%）和多系统疾病类（5.4%）。以相对健康人群为参照的多项logit分析显示，老年和女性参与者更有可能属于血管疾病和多系统疾病人群。社会经济地位高的人患血管疾病的概率明显更高。曾经吸烟与患呼吸系统疾病和多系统疾病的概率较高有关。体力活动与被划分到血管类、呼吸类和多系统类的几率较低相关。

结论：不同的多病模式意味着预防和护理策略应针对一组疾病而不是单一疾病。对于有危险因素的个体，应注意预防干预。

二、研究设计

P（Population）研究对象：60岁以上的来自2018年中国健康与退休纵向研究（CHARLS）的参与者

O（Outcome）结局：存在的14种慢性病

S（Study design）研究类型：横断面研究

三、研究结果

1.人群特征

平均年龄为69.1岁，其中60-64岁的占31.9%，65-69岁的占28.3%，70岁及以上的占39.8%。女性比例略高（51.2 vs. 48.8）。在所有参与者中，6,489人（60.4%）生活在农村地区，超过一半（54.3%）的教育水平低于小学。医疗保险覆盖率高（96.9%）;然而，超过60%的人被NRCMS覆盖，福利待遇有限，报销率低。

2.多病症和多病模式的患病率

高血压（47.2%）、关节炎（44.7%）和胃病（31.6%）是最普遍的疾病。在 7,049 例多病患者中，高血压是最普遍的共存疾病（超过 60% 的多病患者），其次是关节炎（58.8%）、胃病（43.5%）、慢性心脏病（36.6%）和血脂异常（35.8%）。

3.多病模式的五类模型

基于与总体平均值相比的超额项目响应概率（图 1），我们命名了五个类别：相对健康类、血管类、呼吸类、胃关节炎类和多系统发病率类。近一半（49.8%）的参与者属于相对健康的类别，而5.4%的参与者属于多系统发病率类别。约24.7%、14.5%和5.6%的参与者分别被分配到血管类、胃关节炎类和呼吸类。

4.多病模式的相关因素

与60-64岁组的参与者相比，65-69岁年龄组和70+年龄组的参与者更有可能被分为多系统发病率等级（RRR=1.37和1.46），血管等级（RRR=1.33和1.36）和呼吸等级（RRR=1.54和2.17）。除呼吸类外，女性在几乎所有多病类别（与相对健康类别相比）的概率显著更高，血管类、胃关节炎类和多系统发病率类的RRR分别为1.56（95%CI：1.35-1.81）、1.65（95%CI：1.38-1.98）和1.90（95%CI：1.44-2.50）。

统计学方法

1.潜在类别分析

根据 14 种情况，进行 LCA 以确定 10,749 名参与者中不同慢性病的聚类模式。检查了 2 到 6 个类别，并根据我们对各种模型拟合统计量的评估选择了最佳拟合解决方案。

2.影响因素分析

在选择最佳拟合解决方案并将个体分类为不同类别后，采用多项式logit分析来检验多病症类别的影响因素，同时将所有选定的社会人口学和生活方式特征输入模型。

3.统计分析软件

使用 Mplus 6.1 版和 Stata 17 版进行分析。P值<0.05被认为具有统计学意义。

R语言复现

1、变量表

变量名	标签	变量类型	分类变量的编码
r4agey	年龄	连续变量
agef	年龄	3分类	60-64； 65-69； ≥70
ragender	性别	2分类	1：男性； 2：女性
h4rural	居住地	2分类	1：农村； 2：城市
r4hibpe	高血压	2分类	1：无； 2：有
r4diabe	糖尿病	2分类	1：无； 2：有
r4cancre	癌症	2分类	1：无； 2：有
r4lunge	肺部疾病	2分类	1：无； 2：有
r4hearte	心脏疾病	2分类	1：无； 2：有
r4stroke	中风	2分类	1：无； 2：有
r4psyche	精神疾病	2分类	1：无； 2：有
r4arthre	关节炎或风湿病	2分类	1：无； 2：有
r4dyslipe	血脂异常	2分类	1：无； 2：有
r4livere	肝脏疾病	2分类	1：无； 2：有
r4kidneye	肾脏疾病	2分类	1：无； 2：有
r4digeste	消化系统疾病	2分类	1：无； 2：有
r4asthmae	哮喘	2分类	1：无； 2：有
r4memrye	记忆相关疾病	2分类	1：无； 2：有
r4drinkev	饮酒	2分类	1：否； 2：是
eduf	教育	2分类	1：小学以下； 2：小学及以上
marf	婚姻状态	2分类	1：已婚； 2：未婚
comb	慢性病数量	连续变量
combf	多病症	2分类	1：否； 2：是
combfn	慢性病数量分类	7分类	0：0； 1：1； 2：2； 3：3； 4：4； 5：5；6：6；7：≥7
smokef	吸烟	2分类	1：否； 2：是
medinsure	医疗保险	5分类	1：无； 2：UEBMI； 3：居民 MI； 4：NRCMS； 5；其他MI
pa	体力活动	4分类	1：无； 2：轻度； 3：中度； 4：重度
preincomef	家庭人均收入	6分类	1-5：五分位数分类； 6：缺失