多元回归模型
经典线性回归模型的假定
在这一节中,我们将把回归模型由一元扩展到多元。多元回归分析允许在模型中加入多个可观测的因素,通过控制其他条件不变,分析不同的自变量对因变量的解释能力。首先,我们给出经典线性回归模型的基本假定的严格定义,分析在不同的假定条件下,OLS 估计量具有什么样的统计性质。
MLR.1 线性于参数
总体模型设定:
y = β 0 + β 1 x 1 + β 2 x 2 + ⋯ + β k x k + u , y=\beta_0+\beta_1x_1+\beta_2x_2+\cdots+\beta_kx_k+u \ , y=β0+β1x1+β2x2+⋯+βkxk+u ,
其中 β 0 , β 1 , ⋯ , β k \beta_0,\beta_1,\cdots,\beta_k β0,β1,⋯,βk 是未知的待估参数,而 u u u 是无法观测的随机误差项。
上述方程是总体模型的规范化表述,此模型的一个重要特点是,它是参数 β 0 , β 1 , ⋯ , β k \beta_0,\beta_1,\cdots,\beta_k β0,β1,⋯,βk 的线性函数。该假定也是多元回归分析的模型设定。
MLR.2 随机抽样
有一个包含 n n n 次观测的随机样本 { ( x i 1 , x i 2 , ⋯ , x i k , y i ) : i = 1 , 2 , ⋯ , n } \{(x_{i1},x_{i2},\cdots,x_{ik},y_i):i=1,2,\cdots,n\} { (xi1,xi2,⋯,xik,yi):i=1,2,⋯,n} 来自总体模型。
我们可以对一次特定观测 i i i 写出其方程:
y i = β 0 + β 1 x i 1 + β 2 x i 2 + ⋯ + β k x i k + u i , y_i=\beta_0+\beta_1x_{i1}+\beta_2x_{i2}+\cdots+\beta_kx_{ik}+u_i \ , yi=β0+β1xi1+β2xi2+⋯+βkxik+ui ,
这里的 i i i 表示观测次数, x x x 的第二个下标表示变量的序号。
MLR.3 不存在完全共线性
在样本(总体)中,没有一个解释变量是常数,自变量之间也不存在严格的线性关系。
该假定允许解释变量之间存在相关关系,但不能是完全相关。如果存在完全共线性,则 OLS 方法将无法估计,这一点我们在多重共线性一章进行介绍。
MLR.4 零条件均值
给定解释变量的任何值,误差的期望值为零,即
E ( u ∣ x 1 , x 2 , ⋯ , x k ) = 0 . {\rm E}(u\ |\ x_1,x_2,\cdots,x_k)=0 \ . E(u ∣ x1,x2,⋯,xk)=0 .
该假设不成立的情况:
- 被解释变量和解释变量之间的函数关系被错误设定
- 遗漏一个与 x 1 , x 2 , ⋯ , x k x_1,x_2,\cdots,x_k x1,x2,⋯,xk 中任何一个解释变量相关的解释变量
- u u u 与一个解释变量相关(内生解释变量)
MLR.5 同方差性
给定解释变量的任何值,误差都具有相同的方差,即
V a r ( u ∣ x 1 , x 2 , ⋯ , x k ) = σ 2 . {\rm Var}(u\ | \ x_1,x_2,\cdots,x_k)=\sigma^2 \ . Var(u ∣ x1,x2,⋯,xk)=σ2 .
该假设意味着以解释变量为条件,不管解释变量出现怎样的组合,误差项 u u u 的方差都是一样的。违背该假定,模型将表现出异方差性,这一问题在截面数据中十分常见。
MLR.6 正态性
总体误差 u u u 独立于解释变量 x 1 , x 2 , ⋯ , x k x_1,x_2,\cdots,x_k x1,x2,⋯,xk,而且服从均值为0和方差为 σ 2 \sigma^2 σ2 的正态分布:
u ∼ N ( 0 , σ 2 ) . u\sim N(0,\ \sigma^2) \ . u∼N(0, σ2) .
该假定是比前面任何一个假定都更强的假定。当我们以样本自变量的值为条件时,易知 OLS 估计量的抽样分布取决于其背后的误差 u u u 的分布。
定理总结
我们将假定 MLR.1 至 MLR.5 称为高斯-马尔科夫假定,将假定 MLR.1 至 MLR.6 称为经典线性回归模型的基本假定。在基本假定成立的前提条件下,OLS 估计量具有很多优良的统计性质:
- 在假定 MLR.1 至 MLR.4 下,OLS 估计量是具有无偏性。
- 在假定 MLR.1 至 MLR.5 下,OLS 估计量是具有有效性。
- 高斯-马尔科夫定理:在高斯-马尔科夫假定下,OLS 估计量是最优线性无偏估计量(BLUE)。
为了对上述定理进行推导,我们首先要引入一种分析多元回归模型偏效应的方法,即排除其他变量影响的方法。
排除其他变量影响的方法
我们以 β 1 \beta_1 β1 为例,介绍偏回归系数的估计方法,进而我们可以控制其他变量的影响因素,分析 x 1 x_1 x1 对 y y y 的偏效应。
step.1
将 x 1 x_1 x1 对 x 2 , x 3 , . . . , x k x_2,x_3,...,x_k x2,x3,...,xk 进行回归,残差记为 r ^ i 1 \hat{r}_{i1} r^i1 。写成总体模型的形式如下:
x 1 = γ 1 + γ 2 x 2 + . . . + γ k x k + r 1 . x_1=\gamma_1+\gamma_2x_2+...+\gamma_kx_k+r_1 \ . x1=γ1+γ2x2