R语言文章复现:潜类别分析在观察性研究中的应用

编者

潜类别分析(LCA)是潜在变量分析的一种,是将潜在变量理论与分类变量相结合的一种统计分析技术,是探讨存在统计学关联的分类外显变量背后的类别潜在变量的技术。LCA的目的在于利用最少的潜在类别数目解释外显分类变量之间的关联,并使各潜在类别内部的外显变量之间满足局部独立的要求。

本文是潜变量系列文章第一篇 !

观察性研究包括横断面研究、队列研究、病例对照研究。

f4d3e3c776d703530daeda76e567b77e.png

  本篇推文以横断面研究为例进行复现

本公众号回复“  沙龙”即可获得   PPT,数据等资料

案例分享

2022年6月,中国北京大学学者在Bmc Geriatrics(三区,IF=4.1)发表题为:"Multimorbidity patterns and associated factors in older Chinese: results from the China health and retirement longitudinal study" 的研究论文。

3aa8d4f6d5d35e39f711d1c701a63b50.png

一、摘要

标题:中国老年人的多病模式和相关因素:来自中国健康与退休纵向研究的结果

背景: 本研究旨在调查中国老年人的多病模式及其相关因素。

方法: 从2018年中国健康与退休纵向研究(CHARLS)中抽取了10479名年龄至少为60岁的参与者。根据14种自我报告的慢性疾病进行潜在类别分析(LCA),以确定不同的多病类别。多项logit模型用于分析多病模式的相关因素,重点关注个人的人口统计学特征、社会经济地位(SES)和健康行为。

结果在10,479名参与者(平均年龄【标准差】:69.1【7.1】)中,65.6%被确定患有多种疾病。LCA确定了五个多病类:相对健康类(49.8%)、血管类(24.7%)、呼吸类(5.6%)、胃病类(14.5%)和多系统疾病类(5.4%)。以相对健康人群为参照的多项logit分析显示,老年和女性参与者更有可能属于血管疾病和多系统疾病人群。社会经济地位高的人患血管疾病的概率明显更高。曾经吸烟与患呼吸系统疾病和多系统疾病的概率较高有关。体力活动与被划分到血管类、呼吸类和多系统类的几率较低相关。

结论:不同的多病模式意味着预防和护理策略应针对一组疾病而不是单一疾病。对于有危险因素的个体,应注意预防干预。

二、研究设计

P(Population)研究对象:60岁以上的来自2018年中国健康与退休纵向研究(CHARLS)的参与者

O(Outcome)结局:存在的14种慢性病

S(Study design)研究类型:横断面研究

三、研究结果

1.人群特征

平均年龄为69.1岁,其中60-64岁的占31.9%,65-69岁的占28.3%,70岁及以上的占39.8%。女性比例略高(51.2 vs. 48.8)。在所有参与者中,6,489人(60.4%)生活在农村地区,超过一半(54.3%)的教育水平低于小学。医疗保险覆盖率高(96.9%);然而,超过60%的人被NRCMS覆盖,福利待遇有限,报销率低。

2c524512308b4147fd84c76b481e7e6c.png

2.多病症和多病模式的患病率

高血压(47.2%)、关节炎(44.7%)和胃病(31.6%)是最普遍的疾病。在 7,049 例多病患者中,高血压是最普遍的共存疾病(超过 60% 的多病患者),其次是关节炎 (58.8%)、胃病 (43.5%)、慢性心脏病 (36.6%) 和血脂异常 (35.8%)。

9fa91315688333a41aaa88685914ba2b.png

3.多病模式的五类模型

基于与总体平均值相比的超额项目响应概率(图 1),我们命名了五个类别:相对健康类、血管类、呼吸类、胃关节炎类和多系统发病率类。近一半(49.8%)的参与者属于相对健康的类别,而5.4%的参与者属于多系统发病率类别。约24.7%、14.5%和5.6%的参与者分别被分配到血管类、胃关节炎类和呼吸类。

fcf237005d81c0cec93107add5f8b3aa.png

4.多病模式的相关因素

与60-64岁组的参与者相比,65-69岁年龄组和70+年龄组的参与者更有可能被分为多系统发病率等级(RRR=1.37和1.46),血管等级(RRR=1.33和1.36)和呼吸等级(RRR=1.54和2.17)。除呼吸类外,女性在几乎所有多病类别(与相对健康类别相比)的概率显著更高,血管类、胃关节炎类和多系统发病率类的RRR分别为1.56(95%CI:1.35-1.81)、1.65(95%CI:1.38-1.98)和1.90(95%CI:1.44-2.50)。

2b2eeb00cab922af9af2df95324f813d.png

统计学方法

1.潜在类别分析

根据 14 种情况,进行 LCA 以确定 10,749 名参与者中不同慢性病的聚类模式。检查了 2 到 6 个类别,并根据我们对各种模型拟合统计量的评估选择了最佳拟合解决方案。

d95d56581861e087682a4f33e639bf60.png

2.影响因素分析

在选择最佳拟合解决方案并将个体分类为不同类别后,采用多项式logit分析来检验多病症类别的影响因素,同时将所有选定的社会人口学和生活方式特征输入模型。

12e62ca7ee88eb6267dbe00435350261.png

3.统计分析软件

使用 Mplus 6.1 版和 Stata 17 版进行分析。P值<0.05被认为具有统计学意义。

R语言复现

1、变量表

变量名

标签

变量类型

分类变量的编码

r4agey

年龄

连续变量


agef

年龄

3分类

60-64; 65-69; ≥70

ragender

性别

2分类

1:男性; 2:女性

h4rural

居住地

2分类

1:农村; 2:城市

r4hibpe

高血压

2分类

1:无; 2:有

r4diabe

糖尿病

2分类

1:无; 2:有

r4cancre

癌症

2分类

1:无; 2:有

r4lunge

肺部疾病

2分类

1:无; 2:有

r4hearte

心脏疾病

2分类

1:无; 2:有

r4stroke

中风

2分类

1:无; 2:有

r4psyche

精神疾病

2分类

1:无; 2:有

r4arthre

关节炎或风湿病

2分类

1:无; 2:有

r4dyslipe

血脂异常

2分类

1:无; 2:有

r4livere

肝脏疾病

2分类

1:无; 2:有

r4kidneye

肾脏疾病

2分类

1:无; 2:有

r4digeste

消化系统疾病

2分类

1:无; 2:有

r4asthmae

哮喘

2分类

1:无; 2:有

r4memrye

记忆相关疾病

2分类

1:无; 2:有

r4drinkev

饮酒

2分类

1:否; 2:是

eduf

教育

2分类

1:小学以下; 2:小学及以上

marf

婚姻状态

2分类

1:已婚; 2:未婚

comb

慢性病数量

连续变量


combf

多病症

2分类

1:否; 2:是

combfn

慢性病数量分类

7分类

00; 1:1; 2:2; 3:3; 4:4

55667≥7

smokef

吸烟

2分类

1:否; 2:是

medinsure

医疗保险

5分类

1:无; 2:UEBMI; 3:居民 MI

4NRCMS; 5;其他MI

pa

体力活动

4分类

1:无; 2:轻度; 3:中度; 4:重度

preincomef

家庭人均收入

6分类

1-5:五分位数分类; 6:缺失

2、前期数据处理

770f23a4978e061df173a293b802e8e9.png

3、基线特征描述

基于autoReg包分析基线特征(附上部分结果截图,由于作者没有详细说明部分变量的计算方法,变量与原文有出入,样本量相差一人)

b67644a96daf3c43fabe92185a96208a.png

8dd2cbc0501b9a223814b5a3347a3bd2.png

4、潜类别分析

基于poLCA包进行潜在类别分析,基于文章检查了 2 到 6 个类别,并根据模型拟合统计量的评估选择了最佳拟合解决方案为5分类,详细参数介绍可以看看别的推文哦

8bc4a3cd9d82be8740d1b7f47eba18e7.png

3be5fea0acf39c6c82008ce6d5a7c60c.png

R语言poLCA包绘制的图与原文的折线图不太一样,原文折线图是基于Mplus绘制的,但表达的是一样的内容

76384dc7feb37764e7b578eaea7e5ba8.png

潜在类别分析建模后将分类整合到原始数据中

e1e2f771522914685857c38b75c1c0c5.png

5、缺失数据填补

原文在变量介绍中最后讲解了对于变量缺失值如何处理,但没有给出具体的填补参数,小编以之前介绍的mice包填补缺失值,不了解的可以看看之前的推文

de66d21041dd8b224a0434e9a4ba5f8a.png

82e84f4526dc1bdb695e572f868d6cff.png

6、影响因素分析

结局指标为无序多分类变量(多病聚类),基于nnet包的multinom函数使用多项式logistic回归分析。结果的部分截图如下,果展示了从编码为2 的分类的logistic回归结果,这是由于模型默认以最小的编码(此处为1)为对对照。

e3e58286648b3c2dfbe05f2748b536c0.png

f1dc0715c4867f28724e331f618fe436.png

后记

本文举例说明了潜在类别分析在横断面研究中的应用,当然也适用于纵向研究中。

有需要的朋友可以先收藏起来

本公众号回复“沙龙”即可获得  沙龙PPT,数据等资料

本公众提供各种科研服务了!

一、课程培训

2022年以来,我们召集了一批富有经验的高校专业队伍,着手举行短期统计课程培训班,包括R语言、meta分析、临床预测模型、真实世界临床研究、问卷与量表分析、医学统计与SPSS、临床试验数据分析、重复测量资料分析、nhanes、孟德尔随机化等10余门课。如果您有需求,不妨点击查看:

发文后退款:2024-2025年科研统计课程介绍

二、数据分析服务

浙江中医药大学郑老师团队接单各项医学研究数据分析的服务,提供高质量统计分析报告。有兴趣了解一下详情:

课题、论文、毕业数据分析 

 临床试验设计与分析 公共数据库挖掘与统计

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值