异方差
在上一节的讨论中,完全共线性问题违背了基本假定 MLR.3 ,而多重共线性没有违背任何一个基本假定,因此 OLS 估计量仍然具有 BLUE 性质。这一篇笔记我们主要来讨论异方差问题,即如果违背了同方差假定 MLR.5 的情况。
异方差的含义
在介绍异方差之前,我们先回顾一下同方差的情况。方差是度量被解释变量的观测值围绕回归线的分散程度,因此同方差假定指的是所有观测值的分散程度相同。
V a r ( u ∣ X ) = [ σ 2 σ 2 ⋱ σ 2 ] = σ 2 [ 1 1 ⋱ 1 ] = σ 2 I n . {\rm Var}(\boldsymbol{u}|\boldsymbol{X}) = \left[ \begin{array}{cccc} \sigma^2 & & & \\ & \sigma^2 & & \\ & & \ddots & \\ & & & \sigma^2 \\ \end{array} \right] = \sigma^2 \left[ \begin{array}{cccc} 1 & & & \\ & 1 & & \\ & & \ddots & \\ & & & 1 \\ \end{array} \right] = \sigma^2\boldsymbol{I}_n \ . Var(u∣X)=⎣⎢⎢⎡σ2σ2⋱σ2⎦⎥⎥⎤=σ2⎣⎢⎢⎡11⋱1⎦⎥⎥⎤=σ2In .
异方差指的是对于不同的样本点,随机干扰项的方差不再是常数,而是互不相同的。即如果 u u u 的方差随 x x x 变化,那么称随机干扰项是具有异方差的。当异方差发生的时候,随机干扰项的条件方差是关于解释变量的函数:
V a r ( u ∣ X 1 , X 2 , . . . , X k ) = g ( X 1 , X 2 , . . . X k ) . {\rm Var}(u|X_1,X_2,...,X_k)=g(X_1,X_2,...X_k) \ . Var(u∣X1,X2,...,Xk)=g(X1,X2,...Xk) .
用协方差矩阵表示为:
V a r ( u ∣ X ) = [ σ 1 2 σ 2 2 ⋱ σ n 2 ] = σ 2 [ ω 1 ω 2 ⋱ ω n ] = σ 2 Ω . {\rm Var}(\boldsymbol{u}|\boldsymbol{X}) = \left[ \begin{array}{cccc} \sigma_1^2 & & & \\ & \sigma_2^2 & & \\ & & \ddots & \\ & & & \sigma_n^2 \\ \end{array} \right] = \sigma^2 \left[ \begin{array}{cccc} \omega_1 & & & \\ & \omega_2 & & \\ & & \ddots & \\ & & & \omega_n \\ \end{array} \right] = \sigma^2\boldsymbol\Omega \ . Var(u∣X)=⎣⎢⎢⎡σ12σ22⋱σn2⎦⎥⎥⎤=σ2⎣⎢⎢⎡ω1ω2⋱ωn⎦⎥⎥⎤=σ2Ω .
这里的 V a r ( u i ) = σ i 2 {\rm Var}(u_i) = \sigma_i^2 Var(ui)=σi2 ,下标 i i i 表示非常数,违背了 MLR.5。
用图形表示为:
异方差的产生原因
(1) 模型中遗漏了某些重要的解释变量
举个例子比较容易理解。假设正确的计量模型是:
Y i = β 0 + β 1 X i 1 + β 2 X i 2 + u i , Y_i=\beta_0+\beta_1X_{i1}+\beta_2X_{i2}+u_i \ , Yi=β0+β1Xi1+β2Xi2+ui ,
如果我们遗漏了解释变量 X i 2 X_{i2} Xi2 ,估计的模型为:
Y i = β 0 + β 1 X i 1 + v i , Y_i=\beta_0+\beta_1X_{i1}+v_i \ , Yi=β0+β1Xi1+vi ,
当被遗漏的 X 2 i X_{2i} X2i 与 X i 1 X_{i1} Xi1 具有呈现同方向或反方向的变化趋势时, X 2 i X_{2i} X2i 随 X i 1 X_{i1} Xi1 的有规律的变化会体现在随机干扰项 v i v_i vi 中。一般这种情况往往也会造成内生性的问题,我们在后面的章节进行介绍。
(2) 数据的测量误差
样本数据的观测误差有可能随研究范围的扩大而增加,或随时间的推移逐步积累,也可能随着观测技术的提高而逐步减小。
(3) 截面数据中总体各单位的差异
通常认为,截面数据较时间序列数据更容易产生异方差。这是因为同一时点不同对象的差异,一般说来会大于同一对象不同时间的差异。不过,在时间序列数据发生较大变化的情况下,也可能出现比截面数据更严重的异方差。
(4) 一个或多个回归解释变量的分布是偏态(skewness)
例如:收入、财富和受教育水平的总体分布都是不均匀的分布。具体体现在大部分的收入和财富被少数人所拥有,受高等教育的精英也是少数等等。
(5) 模型的函数形式存在设定误差
(6) 异常值
异方差的后果
-
不改变无偏性和一致性:参数估计的无偏性仅依赖于基本假定中的零均值假定,所以异方差的存在对无偏性的成立没有影响。
-
参数估计量非有效:同方差假定是 OLS 估计方差最小的前提条件,所以随机误差项是异方差时,将不能再保证最小二乘估计的方差最小。我们重新写一遍矩阵形式的推导过程就可以清楚的发现问题:
V a r ( β ^ ∣ X ) = V a r ( β + ( X T X ) − 1 X T μ ) = ( X T X ) − 1 X T ⋅ V a r ( μ ∣ X ) ⋅ X ( X T X ) − 1 = ( X T X ) − 1 X T ⋅ σ 2 Ω ⋅ X ( X T X ) − 1 = σ 2 ( X T X ) − 1 X T ⋅ Ω ⋅ X ( X T X ) − 1 ≠ σ 2 ( X T X ) − 1 . \begin{aligned} {\rm Var}(\hat{\boldsymbol\beta}|\boldsymbol{X})&={\rm Var}\left(\boldsymbol{\beta}+\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{\mu}\right) \\ &=\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\cdot{\rm Var}(\boldsymbol\mu|\boldsymbol{X})\cdot\boldsymbol{X}\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1} \\ &=\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\cdot\sigma^2\boldsymbol\Omega\cdot\boldsymbol{X}\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1} \\ &=\sigma^2\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\cdot\boldsymbol\Omega\cdot\boldsymbol{X}\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1} \\ &\neq\sigma^2\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1} \ . \end{aligned} Var(β^∣X)=Var(β+(XTX)−1XTμ)=(XTX)−1XT⋅Var(μ∣X)⋅X(XTX)−1=(XTX)−1XT⋅σ2Ω⋅X(XTX)−1=σ2(XTX)−1XT⋅Ω⋅X(XTX)−1=σ2(XTX)−1 .
- V a r ( β j ^ ) {\rm Var}(\hat{\beta_j}) Var(βj^) 非有效会造成一系列的影响:
- 不能用来构造置信区间和 t t t 统计量,使用大样本容量也不能解决这个问题;
- 变量的显著性检验失去意义;
- 模型的预测失效。
在这里我们利用排除其他解释变量影响的方法简单回顾一下同方差条件下的 t t t 统计量:
t = β ^ j − β j s e ( β ^ j ) = β ^ j − β j σ ^ 2 S S T j ( 1 − R j 2 ) = β ^ j − β j σ ^ 2 ⋅ σ 2 S S T j ( 1 − R j 2 ) ⋅ σ 2 = β ^ j − β j s d ( β ^ j ) σ ^ 2 σ 2 , t=\frac{\hat\beta_j-\beta_j}{
{\rm se}(\hat\beta_j)}=\frac{\hat\beta_j-\beta_j}{\displaystyle\sqrt{\displaystyle\frac{\hat\sigma^2}{
{\rm SST}_j(1-R_j^2)}}}=\frac{\hat\beta_j-\beta_j}{\displaystyle\sqrt{\displaystyle\frac{\hat\sigma^2\cdot\sigma^2}{
{\rm SST}_j(1-R_j^2)\cdot\sigma^2}}}=\frac{\displaystyle\frac{\hat\beta_j-\beta_j}{
{\rm sd}(\hat\beta_j)}}{\displaystyle\sqrt{\displaystyle\frac{\hat\sigma^2}{\sigma^2}}} \ , t=se(β^j)β^