纵向数据分析学习笔记-day3

最新推荐文章于 2024-07-22 23:00:00 发布

weixin_52014216

最新推荐文章于 2024-07-22 23:00:00 发布

阅读量283

点赞数

文章标签：数据分析学习笔记

本文链接：https://blog.csdn.net/weixin_52014216/article/details/134954974

版权

学习途径：应用R语言进行纵向数据分析（二）

线性混合模型R语言实现运行结果解读

一、空模型

代码：
lin_0 <- lmer(distance ~ 1 + (1 | id), data = dental_long)
 summary(lin_0)

代码是使用R语言的lme4包来拟合一个线性混合效应模型。这个模型的一般形式是y ~ x + (1 | group)，其中y是响应变量，x是预测变量，group是随机效应部分。

详细解释一下代码：

lin_0 <- lmer(distance ~ 1 + (1 | id), data = dental_long)

其中：

lin_0 是定义的这个混合效应模型的变量名。
lmer 是lme4包中的一个函数，用于拟合线性混合效应模型。
distance 是响应变量，即你希望对其进行分析的变量。
1 是固定效应部分，这里只有一个截距项。
(1 | id) 是随机效应部分，其中id是随机效应的分组变量。这里的1表示每个组（即id）有一个随机截距。
data = dental_long 指定了数据来源，即dental_long数据框。

这个模型的意义在于，它允许响应变量（在这里是distance）在每个组（由id定义）中与预测变量（在这里是1）的关系存在差异。这种差异可能是由于一些未被包括在模型中的潜在因素引起的。

运行结果：
Linear mixed model fit by REML. t-tests use Satterthwaite's method ['lmerModLmerTest']
Formula: distance ~ 1 + (1 | id)
   Data: dental_long

REML criterion at convergence: 515.4

Scaled residuals: 
    Min      1Q  Median      3Q     Max 
-3.2400 -0.5277 -0.1073  0.4732  2.7687 

Random effects:
 Groups   Name        Variance Std.Dev.
 id       (Intercept) 3.752    1.937   
 Residual             4.930    2.220   
Number of obs: 108, groups:  id, 27

Fixed effects:
            Estimate Std. Error      df t value Pr(>|t|)    
(Intercept)  24.0231     0.4297 26.0000   55.91   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

这段输出是关于一个线性混合效应模型（Linear Mixed Model，简称LMM）的拟合结果。

Linear mixed model fit by REML. t-tests use Satterthwaite's method ['lmerModLmerTest']：这行信息说明使用的是REML（Restricted Maximum Likelihood）方法来拟合线性混合效应模型，而且在进行t检验时使用了Satterthwaite的方法。
Formula: distance ~ 1 + (1 | id)：这是模型的公式，表示预测变量是distance，固定效应部分包含一个截距项（1），随机效应部分包含一个以id为分组变量的截距项（1 | id）。
Data: dental_long：这行指明了数据来源，即使用dental_long数据框作为数据源。
REML criterion at convergence: 515.4：这是REML准则在模型拟合收敛时的值，用于评估模型的拟合程度。
Scaled residuals:：下面三行描述了标准化残差的统计性质，包括最小值（Min）、第一四分位数（1Q）、中位数（Median）、第三四分位数（3Q）和最大值（Max）。
Random effects:：下面三行描述了随机效应部分的信息。分组变量是id，对应的随机截距项的方差是3.752，标准差是1.937。残差的方差是4.930，标准差是2.220。总共有108个观测值，分为27个不同的id组。
Fixed effects:：下面三行描述了固定效应部分的信息。这里只有一个截距项的估计值24.0231，标准误差是0.4297。自由度是26，t值是55.91，对应的p值小于2e-16，因此这个截距项是极其显著的。
--- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1：这是p值的显著性代码，用于解释p值的意义。在这里，p值小于""对应的0.001，""对应的0.01，""对应的0.05，"."对应的0.1和" "对应的0.5，因此被认为具有统计显著性。

总的来说，这个线性混合效应模型拟合了一个响应变量（distance）和一个预测变量（1），同时考虑了随机效应（以id为分组变量）的影响。模型的REML准则在收敛时的值为515.4，标准化残差的范围从-3.24到2.77。固定效应部分的截距项极其显著（p值小于2e-16）。

代码：
ranova(lin_0)

运行结果：

ANOVA-like table for random-effects: Single term deletions

Model:
distance ~ (1 | id)
         npar  logLik    AIC   LRT Df Pr(>Chisq)    
<none>      3 -257.68 521.36                        
(1 | id)    2 -269.14 542.28 22.92  1  1.689e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

这个输出是从一个R程序中生成的，其中使用了lme4包进行线性混合效应模型的拟合和检验。这个特定的输出展示了一个ANOVA（Analysis of Variance，方差分析）类似的表格，但是针对的是随机效应模型，而不是常规的ANOVA模型。

解释一下表格中的每个项：

<none>：这是不包含任何项的模型，即一个空模型。
(1 | id)：这是一个包含了一项的模型，其中(1 | id)表示每个个体的随机效应。这里的id代表个体或组的标识符。
npar：这是每个模型中参数的数量。<none>模型有3个参数（截距和两个随机效应），而(1 | id)模型只有2个参数（截距和随机效应）。
logLik：这是每个模型的Log-likelihood值，数值越小表示模型的拟合程度越好。
AIC：这是每个模型的Akaike Information Criterion（AIC）值，这个值越小表示模型的拟合程度越好。
LRT：这是在两个模型之间进行比较的似然比检验（Likelihood Ratio Test，LRT）的统计量，其数值越大，表示两个模型之间的差异越大。
Df：这是似然比检验中的自由度。
Pr(>Chisq)：这是p值，表示比较两个模型的似然比统计量与卡方分布的累积分布函数的值。这个值越小表示两个模型的差异越大。

在你的输出中，(1 | id)模型相较于<none>模型有更小的AIC值，且LRT统计量和p值都显著（p值小于0.001），这表明包含个体随机效应的模型拟合得更好。

ANOVA表格是用来比较包含和不包含特定项（在这里是个体随机效应）的模型的拟合优度。当LRT的统计量和对应的p值显著时，我们可以拒绝零假设（即该项无贡献），并认为该项对模型的贡献具有统计显著性。在例子中，包含个体随机效应的模型比不包含该项的模型拟合得更好，因此可以认为个体随机效应对解释距离变量具有重要贡献。

二、在空模型的基础上考虑时间效应

代码：

lin_age <- lmer(distance ~ measurement + (1 | id), data = dental_long)
summary(lin_age)

整个模型的目的是找出 measurement 对 distance 的影响，同时考虑到数据中可能存在的群体结构（即个体之间的差异）。

具体解释如下：

lin_age <- lmer(distance ~ measurement + (1 | id), data = dental_long) 这行代码是在拟合线性混合效应模型，并将结果存储在变量 lin_age 中。
lmer() 是lme4包中用来拟合线性混合效应模型的函数。
distance ~ measurement + (1 | id) 是模型公式，它定义了要拟合的模型。
data = dental_long 指定了数据框 dental_long 中包含的数据用于拟合模型。

这个模型的结果可以用来解释固定效应和随机效应对 distance 的影响，同时考虑到数据中可能存在的群体结构（即个体之间的差异），以及它们是如何相互作用的。

运行结果：

Linear mixed model fit by REML. t-tests use Satterthwaite's method [lmerModLmerTest]
Formula: distance ~ measurement + (1 | id)
   Data: dental_long

REML criterion at convergence: 443.2

Scaled residuals: 
    Min      1Q  Median      3Q     Max 
-3.7376 -0.5248  0.0153  0.4027  3.7212 

Random effects:
 Groups   Name        Variance Std.Dev.
 id       (Intercept) 4.465    2.113   
 Residual             2.078    1.442   
Number of obs: 108, groups:  id, 27

Fixed effects:
                             Estimate Std. Error      df t value Pr(>|t|)    
(Intercept)                   22.1852     0.4923 43.3911  45.066  < 2e-16 ***
measurementMeasure at age 10   0.9815     0.3924 78.0000   2.501   0.0145 *  
measurementMeasure at age 12   2.4630     0.3924 78.0000   6.277 1.80e-08 ***
measurementMeasure at age 14   3.9074     0.3924 78.0000   9.958 1.52e-15 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Correlation of Fixed Effects:
            (Intr) mMaa10 mMaa12
msrmntMaa10 -0.399              
msrmntMaa12 -0.399  0.500       
msrmntMaa14 -0.399  0.500  0.500

REML criterion at convergence: 这是用于评估模型拟合优度的指标，值越小表示模型的拟合效果越好。在这里，REML criterion的值是443.2。

Scaled residuals: 这些是模型预测值与实际观察值之间的差异。对于混合效应模型，通常需要将残差进行缩放以考虑到群体结构。这里，Scaled residuals的范围从-3.7376到3.7212。

Random effects: 这部分显示了哪些效应被模型设定为随机效应。在这里，id是随机效应项，意味着每个个体的截距是随机的。此外，Residual表示的是残差部分。

Fixed effects: 这部分显示了固定效应的估计值和对应的标准误差。在这里，(Intercept)是截距项，而measurement是预测变量。每一个measurement水平（如age 10, age 12, age 14）都有一个对应的估计值。t值和对应的p值也被计算出来，以检验每个固定效应的显著性。

Signif. codes: 这部分给出了显著性水平的代码，表示每个t检验的结果有多显著。""表示p值小于0.001，这是一个非常显著的差异，""表示p值小于0.01，""表示p值小于0.05，"."表示p值小于0.1，" "表示p值大于0.1。

Correlation of Fixed Effects: 这部分显示了固定效应之间的相关性。例如，msrmntMaa10、msrmntMaa12和msrmntMaa14之间的相关性分别是-0.399、0.500和0.500。

总的来说，这个模型试图理解distance如何被measurement和id影响，并且假设id的影响是随机的（即每个个体的截距是不同的）。从固定效应来看，模型发现当measurement在age 10、age 12和age 14时，distance都有显著增加。

weixin_52014216

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
纵向数据分析学习笔记-day3

当LRT的统计量和对应的p值显著时，我们可以拒绝零假设（即该项无贡献），并认为该项对模型的贡献具有统计显著性。这个特定的输出展示了一个ANOVA（Analysis of Variance，方差分析）类似的表格，但是针对的是随机效应模型，而不是常规的ANOVA模型。模型有更小的AIC值，且LRT统计量和p值都显著（p值小于0.001），这表明包含个体随机效应的模型拟合得更好。的影响，同时考虑到数据中可能存在的群体结构（即个体之间的差异），以及它们是如何相互作用的。的影响是随机的（即每个个体的截距是不同的）。
复制链接

扫一扫