理解线性混合模型

—记录学习笔记----

混合效应模型称为混合,是因为该模型可以同时对固定效应和随机效应进行建模,固定效应指的就是总体的平均水平,对平均趋势建模,随机效应对这种平均趋势在分组水平上(参与者或主题)建模。

模型解释

模式有两大部分组成:

  1. 固定效应模型:值被假定为常量,非随机的,(例如,性别、年龄、饮食、时间),通常表示研究中感兴趣的变量,比如不同治疗对患者的效果,治疗为固定效应;不同水果对健康水平的影响,水果为固定效应。
  2. 表示个体变化的随机效应,随机效应是指的数据中不同组别或不同个体间的变异性,值假定是从随机分布中提取的,本质上是分类变量。所以如果一个变量是连续的,请把他视为固定效应!在实验中,个体被视为随机效应,因为是从各自的总体中随机抽样的,我们希望解释个体内的可变性,同一个个体内的观测值之间的相关结构。或者是不同组别的效应,解释同一组之间的相关结构。

模型表示

Y = X * β + Z * u + ε
Y 是响应变量。
X 是固定效应的设计矩阵。
β 是固定效应系数的向量。
Z 是随机效应的设计矩阵。
u 是随机效应系数的向量。
ε 是残差向量。

理解随机效应和固定效应的例子

假设有4个参与者的虚假数据,他们每个参与者都回答了四个项目,不同的点表示不同参与者。我们想知道项目的难易程度对参与者反应时间的影响。横轴表示单词难度,纵轴表示参与者反应时间。
首先不考虑随机效应:
可以看出残差比较大。在这里插入图片描述考虑一个包含参与者随机截距的模型:
考虑了这些参与者的响应时间有快慢之分,但单词难度和响应时间之间的关系对所有参与者来说都同样强烈(即斜率是固定的)
在这里插入图片描述
当包括参与者随机斜率时:
考虑了每个参与者的响应时间有区别,并且对于接受不同难度的单词时,相应时间受到难度的影响也有区别。
在这里插入图片描述

应该包含哪些随机效应

例子中,单词难度是在受试者内部决定的,但是由于单词本身难度就有所不同,所以单词难度也是一个项目间变量。但因为每个单词只有一个难度级别,我们无法对单词难度对特定项目的影响进行建模,不能包括逐项随机斜率。但如果所有单词都出现在一个纯文本或特定语境中,这些单词的特性(如词频、词性、情感倾向等)就可以作为项内变量来进行分析,我们可以在模型中包括该预测变量的逐项随机斜率,这将解释不同单词可能受预测变量不同影响的事实。

因此,我们在单词难度示例中的随机效应结构可以包括参与者和项目的随机截距,以及单词难度的参与者随机斜率,但不能包括单词难度的逐项随机斜率。

可以使用 lme4 包中的 lmer() 函数拟合线性混合模型

library(lme4)

有随机截距没有随机斜率的混合线性模型:

在这里插入图片描述

outcome响应变量,predictor 是固定效应,代表不同的时间点或条件,(1 | participant) 表示随机效应。
括号内部部分是随机效应,不在括号中部分是固定效应。代码的随机效应部分内的垂直线称为管道,它们表示在每组括号中,管道左侧的效果因管道右侧的分组因子而异。截距(由 1 表示)因本实验中的两个分组因子(参与者和项目)而异。请注意,1 在模型规范的固定效应部分中是可选的,因为默认情况下包含固定截距,但在随机效应部分中它不是可选的,因为必须有一些指示来说明每个分组因子允许哪些效应发生变化(即,管道左侧的区域不能留空)。建议在模型规范的固定效应和随机效应部分始终用 1 标记截距,以避免对何时必须包含 1 产生任何混淆。
表示每个受试者有一个随机截距,即每个受试者都有其自己的平均反应时间,但这些截距是随机变化的。

有随机截距和随机斜率的混合线性模型:

在这里插入图片描述
括号里的截距由1表示,这种情况是可选的,是为了清晰可见,暗示随机斜率的存在。随机斜率因参与者和项目而不同。

注意:如果在 R 脚本中运行这行代码,可能会到一条警告消息,指出模型无法收敛。线性混合效应模型在计算上可能很复杂,尤其是当它们具有丰富的随机效应结构时,并且收敛失败基本上意味着在尝试估计模型参数的合理迭代次数内无法找到适合数据的数据。切勿报告非收敛模型的结果,因为收敛警告表明该模型尚未得到可靠估计,因此不可信。

应用: 研究个体水平的某指标的轨迹

比如:估计个体水平GMV 发展轨迹
模型:线性混合模型
使用线性混合效应回归模型 (lme4 1.1-31 package) 估计每个青少年 44 个 ROI 中每个 ROI 中的 GMV 轨迹 (因为每个青少年最多有 3 次结构 MRI 扫描,因此只能稳健估计随机斜率模型)。提取每个青少年的随机斜率的经验贝叶斯估计值。颅内体积 (ICV) 、性别、惯用手和成像部位用作协变量来调整潜在的混杂因素。
模型:主成分降维+分组聚类
通过 PCA (stats 4.2.2 包中的 prcomp 函数) 对使用 44 个 ROI 的神经影像学数据估计的标准化个体 GMV 轨迹进行降维。旋转矩阵是从右奇异向量获得的,其中奇异值分解是在居中的 GMV 轨迹上执行的。考虑到解释的累积方差的比例和多元聚类结果的稳健性,前 15 个 PC(补充表 1)解释了 80% 的总变异,用于多元 k-means 聚类。根据 Elbow 方法选择最佳聚类数,并约束每个聚类至少包含总人口的 4%。
排列测试
通过同时洗牌每个 ROI 中估计的 GMV 轨迹并重新执行降维和多变量聚类超过 1000 次来进行排列。P 值计算为聚类间平方和/总平方和比率的比例大于所有 1000 种排列中原始样本中的估计比率。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值