学习途径:应用R语言进行纵向数据分析(二)
线性混合模型R语言实现运行结果解读
一、空模型
代码: lin_0 <- lmer(distance ~ 1 + (1 | id), data = dental_long) summary(lin_0)
代码是使用R语言的lme4
包来拟合一个线性混合效应模型。这个模型的一般形式是y ~ x + (1 | group)
,其中y
是响应变量,x
是预测变量,group
是随机效应部分。
详细解释一下代码:
lin_0 <- lmer(distance ~ 1 + (1 | id), data = dental_long)
其中:
lin_0
是定义的这个混合效应模型的变量名。lmer
是lme4
包中的一个函数,用于拟合线性混合效应模型。distance
是响应变量,即你希望对其进行分析的变量。1
是固定效应部分,这里只有一个截距项。(1 | id)
是随机效应部分,其中id
是随机效应的分组变量。这里的1
表示每个组(即id
)有一个随机截距。data = dental_long
指定了数据来源,即dental_long
数据框。
这个模型的意义在于,它允许响应变量(在这里是distance
)在每个组(由id
定义)中与预测变量(在这里是1)的关系存在差异。这种差异可能是由于一些未被包括在模型中的潜在因素引起的。
运行结果: Linear mixed model fit by REML. t-tests use Satterthwaite's method ['lmerModLmerTest'] Formula: distance ~ 1 + (1 | id) Data: dental_long REML criterion at convergence: 515.4 Scaled residuals: Min 1Q Median 3Q Max -3.2400 -0.5277 -0.1073 0.4732 2.7687 Random effects: Groups Name Variance Std.Dev. id (Intercept) 3.752 1.937 Residual 4.930 2.220 Number of obs: 108, groups: id, 27 Fixed effects: Estimate Std. Error df t value Pr(>|t|) (Intercept) 24.0231 0.4297 26.0000 55.91 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
这段输出是关于一个线性混合效应模型(Linear Mixed Model,简称LMM)的拟合结果。
Linear mixed model fit by REML. t-tests use Satterthwaite's method ['lmerModLmerTest']
:这行信息说明使用的是REML(Restricted Maximum Likelihood)方法来拟合线性混合效应模型,而且在进行t检验时使用了Satterthwaite的方法。Formula: distance ~ 1 + (1 | id)
:这是模型的公式,表示预测变量是distance
,固定效应部分包含一个截距项(1),随机效应部分包含一个以id
为分组变量的截距项(1 | id)。Data: dental_long
:这行指明了数据来源,即使用dental_long
数据框作为数据源。REML criterion at convergence: 515.4
:这是REML准则在模型拟合收敛时的值,用于评估模型的拟合程度。Scaled residuals:
:下面三行描述了标准化残差的统计性质,包括最小值(Min)、第一四分位数(1Q)、中位数(Median)、第三四分位数(3Q)和最大值(Max)。Random effects:
:下面三行描述了随机效应部分的信息。分组变量是id
,对应的随机截距项的方差是3.752,标准差是1.937。残差的方差是4.930,标准差是2.220。总共有108个观测值,分为27个不同的id
组。Fixed effects:
:下面三行描述了固定效应部分的信息。这里只有一个截距项的估计值24.0231,标准误差是0.4297。自由度是26,t值是55.91,对应的p值小于2e-16,因此这个截距项是极其显著的。--- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
:这是p值的显著性代码,用于解释p值的意义。在这里,p值小于""对应的0.001,""对应的0.01,""对应的0.05,"."对应的0.1和" "对应的0.5,因此被认为具有统计显著性。
总的来说,这个线性混合效应模型拟合了一个响应变量(distance
)和一个预测变量(1),同时考虑了随机效应(以id
为分组变量)的影响。模型的REML准则在收敛时的值为515.4,标准化残差的范围从-3.24到2.77。固定效应部分的截距项极其显著(p值小于2e-16)。
代码:
ranova(lin_0)
运行结果:
ANOVA-like table for random-effects: Single term deletions Model: distance ~ (1 | id) npar logLik AIC LRT Df Pr(>Chisq) <none> 3 -257.68 521.36 (1 | id) 2 -269.14 542.28 22.92 1 1.689e-06 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
这个输出是从一个R程序中生成的,其中使用了lme4
包进行线性混合效应模型的拟合和检验。这个特定的输出展示了一个ANOVA(Analysis of Variance,方差分析)类似的表格,但是针对的是随机效应模型,而不是常规的ANOVA模型。
解释一下表格中的每个项:
<none>
:这是不包含任何项的模型,即一个空模型。(1 | id)
:这是一个包含了一项的模型,其中(1 | id)
表示每个个体的随机效应。这里的id
代表个体或组的标识符。npar
:这是每个模型中参数的数量。<none>
模型有3个参数(截距和两个随机效应),而(1 | id)
模型只有2个参数(截距和随机效应)。logLik
:这是每个模型的Log-likelihood值,数值越小表示模型的拟合程度越好。AIC
:这是每个模型的Akaike Information Criterion(AIC)值,这个值越小表示模型的拟合程度越好。LRT
:这是在两个模型之间进行比较的似然比检验(Likelihood Ratio Test,LRT)的统计量,其数值越大,表示两个模型之间的差异越大。Df
:这是似然比检验中的自由度。Pr(>Chisq)
:这是p值,表示比较两个模型的似然比统计量与卡方分布的累积分布函数的值。这个值越小表示两个模型的差异越大。
在你的输出中,(1 | id)
模型相较于<none>
模型有更小的AIC值,且LRT统计量和p值都显著(p值小于0.001),这表明包含个体随机效应的模型拟合得更好。
ANOVA表格是用来比较包含和不包含特定项(在这里是个体随机效应)的模型的拟合优度。当LRT的统计量和对应的p值显著时,我们可以拒绝零假设(即该项无贡献),并认为该项对模型的贡献具有统计显著性。在例子中,包含个体随机效应的模型比不包含该项的模型拟合得更好,因此可以认为个体随机效应对解释距离变量具有重要贡献。
二、在空模型的基础上考虑时间效应
代码:
lin_age <- lmer(distance ~ measurement + (1 | id), data = dental_long)
summary(lin_age)
整个模型的目的是找出 measurement
对 distance
的影响,同时考虑到数据中可能存在的群体结构(即个体之间的差异)。
具体解释如下:
lin_age <- lmer(distance ~ measurement + (1 | id), data = dental_long)
这行代码是在拟合线性混合效应模型,并将结果存储在变量lin_age
中。lmer()
是lme4包中用来拟合线性混合效应模型的函数。distance ~ measurement + (1 | id)
是模型公式,它定义了要拟合的模型。data = dental_long
指定了数据框dental_long
中包含的数据用于拟合模型。
这个模型的结果可以用来解释固定效应和随机效应对 distance
的影响,同时考虑到数据中可能存在的群体结构(即个体之间的差异),以及它们是如何相互作用的。
运行结果:
Linear mixed model fit by REML. t-tests use Satterthwaite's method [lmerModLmerTest] Formula: distance ~ measurement + (1 | id) Data: dental_long REML criterion at convergence: 443.2 Scaled residuals: Min 1Q Median 3Q Max -3.7376 -0.5248 0.0153 0.4027 3.7212 Random effects: Groups Name Variance Std.Dev. id (Intercept) 4.465 2.113 Residual 2.078 1.442 Number of obs: 108, groups: id, 27 Fixed effects: Estimate Std. Error df t value Pr(>|t|) (Intercept) 22.1852 0.4923 43.3911 45.066 < 2e-16 *** measurementMeasure at age 10 0.9815 0.3924 78.0000 2.501 0.0145 * measurementMeasure at age 12 2.4630 0.3924 78.0000 6.277 1.80e-08 *** measurementMeasure at age 14 3.9074 0.3924 78.0000 9.958 1.52e-15 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Correlation of Fixed Effects: (Intr) mMaa10 mMaa12 msrmntMaa10 -0.399 msrmntMaa12 -0.399 0.500 msrmntMaa14 -0.399 0.500 0.500
REML criterion at convergence: 这是用于评估模型拟合优度的指标,值越小表示模型的拟合效果越好。在这里,REML criterion的值是443.2。
Scaled residuals: 这些是模型预测值与实际观察值之间的差异。对于混合效应模型,通常需要将残差进行缩放以考虑到群体结构。这里,Scaled residuals的范围从-3.7376到3.7212。
Random effects: 这部分显示了哪些效应被模型设定为随机效应。在这里,id
是随机效应项,意味着每个个体的截距是随机的。此外,Residual表示的是残差部分。
Fixed effects: 这部分显示了固定效应的估计值和对应的标准误差。在这里,(Intercept)
是截距项,而measurement
是预测变量。每一个measurement
水平(如age 10, age 12, age 14)都有一个对应的估计值。t值和对应的p值也被计算出来,以检验每个固定效应的显著性。
Signif. codes: 这部分给出了显著性水平的代码,表示每个t检验的结果有多显著。""表示p值小于0.001,这是一个非常显著的差异,""表示p值小于0.01,""表示p值小于0.05,"."表示p值小于0.1," "表示p值大于0.1。
Correlation of Fixed Effects: 这部分显示了固定效应之间的相关性。例如,msrmntMaa10
、msrmntMaa12
和msrmntMaa14
之间的相关性分别是-0.399、0.500和0.500。
总的来说,这个模型试图理解distance
如何被measurement
和id
影响,并且假设id
的影响是随机的(即每个个体的截距是不同的)。从固定效应来看,模型发现当measurement
在age 10、age 12和age 14时,distance
都有显著增加。