文章目录
内生解释变量
内生性的含义
假设多元回归模型:
y = β 0 + β 1 x 1 + β 2 x 2 + . . . + β k x k + u , y=\beta_0+\beta_1x_1+\beta_2x_2+...+\beta_kx_k+u \ , y=β0+β1x1+β2x2+...+βkxk+u ,
回顾零条件均值假设 MLR.4 :
E ( u ∣ x 1 , x 2 , ⋯ , x k ) = 0 , {\rm E}(u|x_1,x_2,\cdots,x_k)=0 \ , E(u∣x1,x2,⋯,xk)=0 ,
根据 MLR.4 我们可以得到推论:
C o v ( u , x j ) = 0 , j = 1 , 2 , ⋯ , k . {\rm Cov}(u,\,x_j)=0 \ ,\ \ \ \ j=1,2,\cdots,k \ . Cov(u,xj)=0 , j=1,2,⋯,k .
如果 C o v ( x i , u ) ≠ 0 {\rm Cov}(x_i,\,u)\neq0 Cov(xi,u)=0 ,则称 x i x_i xi 为内生解释变量;
如果 C o v ( x j , u ) = 0 {\rm Cov}(x_j,\,u)=0 Cov(xj,u)=0 ,则称 x j x_j xj 为外生解释变量。
当多元回归模型违背了零条件均值假设时,我们称模型存在内生解释变量问题,又称内生性问题。在截面数据中,内生性问题只存在同期内生变量的问题;在时间序列数据中,还有可能出现同期无关但异期相关的内生性问题。
同期内生变量问题:
C o v ( x i , u i ) = E ( x i u i ) ≠ 0 . {\rm Cov}(x_i,\,u_i)={\rm E}(x_iu_i)\neq0 \ . Cov(xi,ui)=E(xiui)=0 .
同期无关,异期相关问题:
C o v ( x t , u t ) = E ( x t u t ) = 0 , {\rm Cov}(x_t,\,u_t)={\rm E}(x_tu_t)=0 \ , Cov(xt,ut)=E(xtut)=0 ,
C o v ( x t , u t − s ) = E ( x t u t − s ) ≠ 0 . {\rm Cov}(x_t,u_{t-s})={\rm E}(x_tu_{t-s})\neq0 \ . Cov(xt,ut−s)=E(xtut−s)=0 .
因此,在时间序列模型的基本假设 TS.3 中,我们需要对模型施加严格外生假设,才能保证模型不会出现内生解释变量的问题。
内生性的产生原因
建立的模型中遗漏了重要的解释变量,并且被遗漏的解释变量与模型中的其他解释变量相关:
例:假设真实的模型设定为
log ( w a g e ) = β 0 + β 1 e d u c + β 2 a b i l + ε , \log(wage)=\beta_0+\beta_1educ+\beta_2abil+\varepsilon \ , log(wage)=β0+β1educ+β2abil+ε ,
由于 a b i l abil abil 不可观测而估计的模型为
log ( w a g e ) = β 0 + β 1 e d u c + u , \log(wage)=\beta_0+\beta_1educ+u \ , log(wage)=β0+β1educ+u ,
其中 u = β 2 a b i l + ε u=\beta_2abil+\varepsilon u=β2abil+ε 。此外我们假设 C o v ( e d u c , a b i l ) ≠ 0 {\rm Cov}(educ,\,abil)\neq0 Cov(educ,abil)=0 ,从而 C o v ( e d u c , u ) ≠ 0 {\rm Cov}(educ,\,u)\neq0 Cov(educ,u)=0 ,于是造成了解释变量的内生性问题。
解释变量存在测量误差:
例:假设真实的模型为
y = β 0 + β 1 i n c ∗ + ε , y=\beta_0+\beta_1inc^*+\varepsilon \ , y=β0+β1inc∗+ε ,
由于存在测量误差而估计的模型为
y = β 0 + β 1 i n c + u . y=\beta_0+\beta_1inc+u \ . y=β0+β1inc+u .
其中 i n c inc inc 是报告收入, i n c ∗ inc^* inc∗ 是真实收入,因此测量误差为 e = i n c − i n c ∗ e=inc-inc^* e=inc−inc∗ 。我们将真实的模型改写为
y = β 0 + β 1 ( i n c − e ) + ε = β 0 + β 1 i n c + ε − β 1 e . y=\beta_0+\beta_1(inc-e)+\varepsilon=\beta_0+\beta_1inc+\varepsilon-\beta_1e \ . y=β0+β1(inc−e)+ε=β0+β1inc+ε−β1e .
如果报告收入 i n c inc inc 与测量误差 e e e 相关,就会造成内生性问题。
联立方程模型:
- 在一个经济系统中,变量之间相互依存,互为因果,而不是简单的单向因果关系,必须用一组方程才能描述,称为联系方程模型。
- 联系方程模型的每个方程称为结构方程。
- 每个结构方程的被解释变量是经济系统的内生变量,而解释变量既包括经济系统的外生变量,也包括其他内生变量,由经济行为关系决定。
- 联系方程模型的每个结构方程一般都存在内生解释变量的问题。
(我们在后面单独作为一节来详细讨论联立方程模型)
内生性的后果
违背假设 MLR.4 ,无论样本大小,都会造成OLS 估计量有偏、非一致。不仅影响内生解释变量的参数估计,也影响其他外生解释变量的参数估计。
以简单线性回归模型 y = β 0 + β 1 x + u y=\beta_0+\beta_1x+u y=β0+β1x+u 为例,假设 x x x 是内生解释变量:
有偏性:
E ( β ^ 1 ∣ x ) = β 1 + ∑ i = 1 n ( x i − x ˉ ) E ( u i ∣ x ) S S T x ≠ β 1 . {\rm E}(\hat\beta_1|x)=\beta_1+\frac{\displaystyle\sum_{i=1}^n(x_i-\bar{x}){\rm E}(u_i|x)}{SST_x}\neq\beta_1 \ . E(β^1∣x)=β1+SSTxi=1∑n(x