统计分析中随机效应、固定效应概念，如何理解？

最新推荐文章于 2025-02-27 14:39:21 发布

妙趣横生统计学

最新推荐文章于 2025-02-27 14:39:21 发布

阅读量5.9k

点赞数 5

文章标签：人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MzAwOTYyMDY3OQ==&mid=2650410901&idx=3&sn=0cff8123905e0ea73934d191f260ce77&chksm=820c172deb39aa926f048d22a69c4952a9df961fce9278baa406b0ee34aa7736b54c33173791&scene=126&sessionid=0

版权

文章讲述了多重线性回归中的固定效应模型和随机效应模型，如何通过增加区域变量来提高模型解释力。作者讨论了两种模型的区别，以及何时选择固定效应模型（地区分类少）和随机效应模型（地区分类适中或研究目的不需比较差异）。还提到了相关的统计课程培训和统计分析服务。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

多重线性回归是我们最常用的评估变量之间关系大小的统计分析方法。

表示为:

lm(Y ~ 1 + X1 + X2, ...)

我们希望β0+β1X1+β2X2 这个模型对因变量Y的解释力越强越好。

所以在科研实践中，我们通常会想办法提高模型的解释力，让误差项ε 中与因变量Y 有关的部分越少越好。

为提高模型的解释力，我们通常会加入更多解释变量。

例如，我们想研究某城市人群死亡风险与空气污染之间的关系。首先收集了一段时间内该城市每天的死亡人数和污染物浓度（如PM2.5 浓度），以及温度、湿度等控制变量；然后构建多重线性回归模型，估计每天的死亡人数和污染物浓度之间的系数大小。

此时，用于统计分析的数据集中，有如下变量：时间（哪一天），死亡人数，污染物浓度，温度，湿度。

可以发现，在上述例子中，有一个不容易成立的假设，即假设整个城市不同区域在同一天的污染物浓度、温度、湿度是相同的（因为每天只有一个污染物浓度/温度/湿度数据，对应一个死亡人数数据），但显然，不同区域的环境情况差别还是比较大的，人群死亡情况的差别可能也是比较大的。

所以，我们需要考虑另外一个维度——空间维度，这时需要收集的数据就变为了：一段时间内该城市不同区域内每天的死亡和环境数据。

固定效应模型

多重线性回归，一般是指有多个自变量X，只有一个因变量Y。前面我们主要是以简单线性回归为例在介绍，两者的差距主要在于自变量X的数量，在只有一个X时，就称简单线性回归本次我们数据链接：

此时，用于统计分析的数据集中，多出了一个变量，那就是：区域。

假设我们把这个城市根据街道分成了50个区域，那么我们收集到的就是这50个区域每天的死亡和环境数据。

以上步骤的目的，就是为了提高模型的解释力，增加了“区域”这个解释变量。

沿着多重线性回归的思路，这时回归方程变成了如下形式：

式中，region是区域哑变量。X1 （污染物）前面的系数不随region的变化而变化，即不同区域内污染物和死亡的关系是固定的，但是不同区域的截距是不同的。

这就是固定效应模型，即就区域这一变量而言，不同区域的截距不同，且不同区域的效应值（β1 ）相同。

lm(Y ~ 1 + X1 + X2 + as.factor(region), ...)
#固定效应模型

不难看出，方程中需要生成50个哑变量。当哑变量的个数太多时，要估计的参数太多，消耗太多自由度，估计结果不可靠。

随机效应模型

这种情况下，固定效应模型就不适用了。我们可以换个思路：引入region这个变量，我们并不是想要关注：X1，X2 不变时，不同region的截距具体是多少。

我们想关注的是，X1 ，X2不变时，不同region的截距的变化程度（用方差表示）如何，方差越大，说明不同区域的截距相差越大，应该引入region变量，并控制这一差异；方差越小，说明不同区域的截距很接近，没有必要引入region这个变量。在方程中可以表示如下：

这就是随机截距模型。可以看到，我们不再运用哑变量的方法具体估计不同region的截距，而是用β0i 来表示第 i 个region的截距。

在该模型中，我们通常假定β0i 是随机变化的，把β0i分解为(β0+u0i) ，β0 是不同region截距的总均值，u0i 表示围绕均值的波动大小。针对u0i这个随机波动，假定其服从均值为0，方差为的正态分布。如果等于0，那么模型三等于模型一，无需引入region变量。

library(lme4)
lmer(Y ~ 1 + X1 + X2 + (1 | region), ...)
#随机截距模型，竖线前面的1代表随机截距,竖线“|”后面是分组变量

不同region之间，除了截距可能不同，效应值也可能不同。沿着模型三的思路，可以有如下表示：

其中，β1i 表示不同region的效应值。把β1i分解为(β1+u1i) ，β1 表示各region X1的效应值的总均值，u1i表示围绕均值的波动大小。针对u1i这个随机波动，假定其服从均值为0，方差为的正态分布。这就是随机系数模型。如果和都等于0，那么模型四等于模型一，无需引入region变量。

lmer(Y ~ 1 + X1 + X2 + (1 + X1 | region), ...)
#随机系数模型，竖线前面的1代表随机截距、X1则代表X1对应的随机斜率,竖线“|”后面是分组变量

随机截距模型和随机系数模型统称为随机效应模型。

小结

现在，我们把模型一～四放到一起：

对比以上模型可以发现，一般线性模型只有随机误差ε1 ，随机截距模型从原误差项中多分解出了u0i 这部分，而随机系数模型又多分解出了u1i 这部分。

可见，

ε1>ε2

ε1>ε3>ε4

无论是固定效应模型还是随机效应模型，其目的都是为了分解误差项，使误差变小、提高模型的解释力。就拿模型一，三，四来看，模型对误差的分解越来越细，剩下的不清楚的误差部分越来越少。这就是我们做研究所希望达到的。

最后，我们说说什么时候用固定效应模型，什么时候用随机效应模型。

如果region的分类较少（一般少于20～30个就算比较少），推荐使用固定效应模型。
如果region分类在20～30个，不多也不少的情况下，似乎固定效应和随机效应都可以用，那么就要看研究目的，如果研究目的不是比较各个region分类之间具体的差异，那就可以使用随机效应模型。
在使用随机效应模型时，具体使用随机截距or 随机系数模型，取决于研究目的。

本公众提供各种科研服务了！

一、课程培训

2022年以来，我们召集了一批富有经验的高校专业队伍，着手举行短期统计课程培训班，包括R语言、meta分析、临床预测模型、真实世界临床研究、问卷与量表分析、医学统计与SPSS、临床试验数据分析、重复测量资料分析、nhanes、孟德尔随机化等10余门课。如果您有需求，不妨点击查看：

发表文章后退款！2023年郑老师团队多门科研统计直播课程，欢迎报名

二、统计服务

为团队发展，我们将与各位朋友合作共赢，本团队将开展统计分析服务，帮忙进行临床科研。欢迎了解详情：

医学统计服务| 医公共数据库论文一对一指导