一文详解轨迹增长模型!附一区文献精读

本文介绍了轨迹增长模型,一种处理纵向数据异质性的方法,区分了潜类别混合增长模型和群组轨迹模型。通过实例展示群组轨迹模型在研究中的应用,探讨了社交和智力活动如何影响认知轨迹,强调了考虑个体差异的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

编者

轨迹增长模型(Latent Class Trajectory Model,LCTM)又叫潜类别轨迹模型,它分为潜类别混合增长模型(LGMM/GMM)和群组轨迹模型(GBTM)(群组轨迹模型又叫组基轨迹模型,也可以称为潜类别增长模型(LCGA))。

轨迹增长模型近年来非常热门,今天这篇文章和诸位分享一下,干货多多!

本篇是潜变量系列文章第7篇

轨迹增长模型是近两年非常热门的纵向数据分析方法,那么在进入主题之前,我先简要介绍一下纵向数据。

拓展

纵向数据通俗点就是指是指对同一组受试个体或者受试单元在不同时间点上重复观测若干次,得到由截面和时间序列融合在一起的数据。

传统的纵向数据分析方法有:重复测量方差分析(RM-ANOVA)、广义估计方程(GEE)、线性混合效应模型(LMM)、广义线性混合效应模型(GLMM)、非线性混合效应模型(NONMEM)、潜增长曲线模型(LGCM)等等。

目前大多数纵向研究都使用线性混合效应模型(LMMs),该模型将重复测量与随机效应相关联,但其侧重于平均人口轨迹,没有考虑到某些个体在群体具有不同发展轨迹的可能性。而潜增长曲线模型是基于结构方程提出来的模型,用于探索群体特征随时间变化发展的过程或者轨迹,但是这一方法前提假设也是群体同质性。

传统的纵向数据分析方法都是不考虑异质性,认为所有的人都有同样的轨迹,协变量对所有人的作用都是一样的。但是这个假设往往不能总是成立,特别是以人为研究中心,人群中就算是同一个变量(特质)也是存在着不同的轨迹的,总体往往具有较大的异质性,所以如果我们用传统方法认为一个轨迹就能说明所有的问题的话,其实是过分简单化了,这时候我们就要考虑轨迹的潜类别了,这就涉及到了我们今天要讲的轨迹增长模型。

关于轨迹增长模型,我们要先了解一下它和传统纵向数据分析方法的区别。同一组数据,如果用传统的纵向分析方法做,也就是要假设群体有共同的发展参数 ,得到的总体发展轨迹就只有一条轨迹;而我们的轨迹模型分析,他是根据群体内个体的不同变化趋势,可以进一步的细化分析,概括成多个不同的水平,像我们图里分成了三组水平,就有了三个轨迹。

848510180c1dc9079bb24c06635dadb0.png

接下来我们看一下轨迹增长模型的具体定义。轨迹增长模型分为潜类别混合增长模型和群组轨迹模型。二者都是在给定的群体中,根据随时间发展的不同变化趋势将其分成不同的类(亚组),而区别就在于:

  • 群组轨迹模型区别成不同的类之后,假设同一类中个体之间是相同的;

  • 潜类别混合增长模型则考虑到了同一类别个体间的差异,它引入了随机效应来捕捉类别内的异质性。

11bdd58f5da49840ba899316d0dbc42b.png

我们进一步简单了解一下潜类别混合增长模型。

  • 左边是全体个案的增长轨迹,传统方法模型试图去描述整个群体的增长情况,认为所有个体的增长情况都可以用一个轨迹去描述(左图中的实线)。

  • 但是当我们提取出整个人群中的其中一个亚组人群(右图),其实这个亚组的增长趋势是和人群总体大不相同的,人群的总体趋势是在上升,此亚组则是在下降。

09c72c0d61f9953d3fc01774c97c7d86.jpeg

这两张图能够更明显的看出传统方法的弊端,这也是从一个侧面说明考虑轨迹的潜类别的重要意义。轨迹模型会把整个群体分为不同的亚组,潜类别混合增长模型认为,亚组内也是存在异质性的,每个潜轨迹类别都可以有其自己的轨迹参数,然后这个轨迹类别的人群在它轨迹的斜率均值上下随机扰动,形成增长混合模型。右图中间的实线是拟合出来这个亚组人群的时间的固定效应,而且这些亚组的斜率和截距也是不一样的。所以右图我们可以看成是一个多水平模型:由随机截距+随机斜率组成。

相比于潜类别混合增长模型,群组轨迹模型更常用些。群组轨迹模型是Nagin于1999年提出并将其定义为:有限混合模型的应用,使轨迹组作为统计工具,用于近似人口成员的未知轨迹。

接下来我们通过一篇文章深入地了解一下群组轨迹模型。

本公众号回复“沙龙”即可获得代码,PPT,数据等资料

案例分享

2020年9月,学者在Alzheimers Research & Therapy(一区,IF=9.0)发表题为:"Associations between social and intellectual activities with cognitive trajectories in Chinese middle-aged and older adults: a nationally representative cohort study" 的研究论文。

0e3df6111c15e6517d3cee3c4f273804.png

一、研究设计

P(Population)研究对象:2011年-2016年(wave1~3)中国健康与养老追踪调查(CHARLS)参与者

95a8441ac23648b715db874f276caa42.png

E(Exposure)暴露:社交和智力活动:评估过去一个月的四项社交活动(与朋友互动;跳舞,锻炼或练习气功;参加社区相关组织;做志愿慈善工作或帮助他人)和四项智力活动(打麻将,纸牌或国际象棋;参加教育或培训课程;投资股票;和上网)。按照频率分为从不(分数 = 0)、不定期(分数 = 1)、几乎每周(分数 = 2)或几乎每天(分数 = 3)。社交和智力活动的总分范围为 0 到 12 分,分为 0、1-2 和≥ 3 。

C(covariant)协变量:年龄、性别、教育水平、婚姻状况、居住地点、家庭收入水平、吸烟、饮酒、自我报告的健康、医生诊断的慢性病、限制、自我报告的视觉和听力障碍、抑郁症状和体重指数 (BMI) 的基线测量值作为协变量纳入当前分析。

O(Outcome)结局:

主要结局:整体认知评分的轨迹:整体认知得分计算为情景记忆和心理完整性得分的总和,范围从 0 到 21;

次要结局:情景记忆和心理完整性评分的轨迹:单词回忆测试评估情景记忆,情景记忆分数计算为即时和延迟单词回忆的平均次数,范围从 0 到 10。认知功能电话访谈 (TICS)用于评估心理完整性,范围从0到11。

S(Study design)研究类型:队列研究。

二、统计学方法

1.使用一个对年龄、性别和教育程度进行调整的多元回归方程以获得预测的认知分数,然后用方程计算调整后的Z得分。我们使用这种方法来转换全局认知分数和单个认知领域的分数。转换后的Z分数用于分析。

d5148905a51fc6a0d4c98f9d4fc5ee4f.png

2.使用群组轨迹模型(GBTM)拟合认知轨迹,并根据贝叶斯信息准则 (BIC) 和赤池信息准则(AIC)确定最佳拟合模型。

0ae91996e09dea1758417e1f2822e872.jpeg

15687804eb3f5730cc495469e7cdb7e7.png

3.采用多项式logistic回归模型估计社会和智力活动与认知功能测量轨迹的关联

284341f77664b53497d9fe4e055f2a32.png

4.交互作用

在不同的模型中,还按年龄组(< 65 岁和 ≥ 65 岁)和性别(男性和女性)进行关联分析。通过在完全调整的模型中添加乘法交互项(即社会活动得分×性别)来测试效果修改。

31ab35a83ea1a3bddb20f2cbe86b5477.png

三、主要结果

1.基线特征:

8204名受试者的平均年龄分别为60.09岁±6.37岁;52.3%的参与者是男性。在样本中,22.2%的参与者的社交活动得分≥3,7.4%的参与者的智力活动得分≥3。

2.估计的认知衰老轨迹:   

我们测试了认知功能的最佳轨迹,以解释该人群中整体认知评分的异质性(表2)。该模型的BIC最低,有四条轨迹(BIC = − 32,098.63);然而,两个轨迹组的平均后验概率小于 0.7。因此,我们确定了具有三个轨迹的GBTM模型作为最优模型。图 2 显示了认知功能的三种纵向模式,根据全球认知评分,按当前年龄绘制,每次就诊时:1 级,“持续低”(n = 1550,18.9%);第 2 类,“持续中度”(n = 3194,38.9%);第 3 类,“持续高”(n = 3460,42.2%)。表3总结了最终三组轨迹模型的最大似然估计值。认知功能域的三个群体轨迹如图3所示。

291f8f5b3a1d5ceced08fc0047ff8f03.png

43b40788cf6d7c46e86ab0df1862f092.png

c7095dfd74a0043193bef1b435700be0.png

87223ed4aa23781a5c043362df49bf95.png

3.轨迹亚群基线特征:

表 4 列出了每个轨迹组中参与者的整体认知功能基线特征。与“持续高”轨迹组相比,“持续低”轨迹组的参与者更有可能年龄较大,女性,教育和收入水平较低,抑郁症状、限制日常潜水活动以及视力或听力障碍的患病率较高。

d7f730dac61e7102220021a63a3995a1.png

4.基线智力、社会活动评分和认知轨迹

表 5 总结了多项式回归的结果,该回归检查了与认知轨迹成员相关的智力、社会活动分数。与未参加社交活动的参与者(得分=0)相比,报告经常参加社交活动(得分≥3)的成年人具有更好的认知轨迹,整体认知功能的“持续低”和“持续中度”轨迹的多变量调整OR(95%CI)分别为0.79(0.65-0.95)和0.76(0.66-0.87)。频繁参与智力活动(得分≥ 3)的相应OR(95%CI)为“持续低”认知功能为0.54(0.38-0.77),“持续中度”认知功能为0.62(0.50-0.77)。如图4所示,年轻(<65岁)和老年人(≥65岁)以及男性和女性(交互作用的p值均>0.05)之间,社会/智力活动与认知轨迹组的关联相似。

80c8b6bfbbe5564d1a011da2a30d1270.png

总结

1.群组轨迹模型/组基轨迹模型(GBTM)的用途与适用性

b8a83f7e2b212bdeae3397bd598d9ce5.png

2.群组轨迹模型/组基轨迹模型(GBTM)的建模过程

5225fc5992f268ccaedcb2d9d4154822.png

3.群组轨迹模型/组基轨迹模型(GBTM)的拟合选择与评价指标

fda7caded165d0772fb62081a4c85d50.png

4.群组轨迹模型/组基轨迹模型(GBTM)的模型选择方法

80af7335ee97d324d835c629e75d73b5.png

5.群组轨迹模型/组基轨迹模型(GBTM)的进一步分析

17f396e2171e6da898379bdfed73e4b0.png

本公众号回复“沙龙”即可获得PPT,数据等资料

本公众提供各种科研服务了!

一、课程培训

2022年以来,我们召集了一批富有经验的高校专业队伍,着手举行短期统计课程培训班,包括R语言、meta分析、临床预测模型、真实世界临床研究、问卷与量表分析、医学统计与SPSS、临床试验数据分析、重复测量资料分析、nhanes、孟德尔随机化等10余门课。如果您有需求,不妨点击查看:

发文后退款:2024-2025年科研统计课程介绍

二、数据分析服务

浙江中医药大学郑老师团队接单各项医学研究数据分析的服务,提供高质量统计分析报告。有兴趣了解一下详情:

课题、论文、毕业数据分析 

 临床试验设计与分析 公共数据库挖掘与统计

### 使用R语言实现群体轨迹模型(GBTM) #### 安装必要的包 为了在R中执行群体轨迹分析,通常会使用`traj`包。此包提供了用于拟合离散和连续响应变量的线性和非线性混合效应模型的功能。 ```r install.packages("traj") library(traj) ``` #### 准备数据集 假设有个名为`data`的数据框,其中每列代表不同间点上的测量值,而每行对应于不同的个体观察结果。对于本例来说,创建个简单的模拟数据集来展示如何操作[^1]: ```r set.seed(1234567890) # 设置随机种子以便重现结果 n <- 100 # 总样本量 time_points <- c(0, 1, 2, 3, 4) # 间节点数量 beta_0 <- rep(c(-1, 0, 1), length.out=nrow(data)) # 初始状态参数向量 beta_1 <- rnorm(n, mean=0.5, sd=.2)[sample.int(n)] # 斜率参数向量 epsilon <- matrix(rnorm(n*length(time_points)), ncol=length(time_points)) X <- outer(beta_0, time_points, "+") + epsilon # 构造观测矩阵 rownames(X) <- paste("id", seq_len(n), sep="_") # 将上述构造好的矩阵转换成适合输入给 traj() 的格式 df_long_format <- reshape( data.frame(t(X)), varying=list(colnames(X)), v.names="value", idvar="subject_id", times=time_points, direction="long" ) head(df_long_format) ``` 这段代码生成了个具有三个潜在类别的合成数据集,并将其转化为长表形式以适应后续函数的要求。 #### 执行轨迹聚类 接下来定义并运行轨迹模型。这里尝试几种可能的类别数目组合(例如从1到4),从中挑选最佳的个作为最终估计的结果。 ```r fit_models <- lapply(seq(from=1,to=4), function(k){ fit <- tryCatch({ traj::getBestModel(formula=value ~ time, data=df_long_format, maxOrder=k, order=c('linear','quadratic'), verbose=F) }, error=function(e)NULL) return(fit) }) best_model_index <- which.max(sapply(fit_models,function(x){if(!is.null(x)){x$BIC}else{NA}})) final_fit <- fit_models[[best_model_index]] summary(final_fit) plot(final_fit) ``` 通过比较贝叶斯信息准则(BIC),选择了最合适的模型复杂度级别;最后打印摘要统计信息以及绘制各群组随间变化的趋势图象。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值