工具变量估计与两阶段最小二乘法–潘登同学的计量经济学笔记
文章目录
本篇着重解决内生解释变量问题,内生性就是模型中一个或者多个解释变量与随机扰动项相关;内生性产生的原因有
- 遗漏变量,且遗漏变量与模型中的其他解释变量相关;
- 解释变量与被解释变量相互作用,相互影响,互为因果;
- 自我选择偏误;
- 样本选择偏误;
工具变量估计
举个最简单的例子,经济学里基本的供求模型告诉我们,供给曲线(p = a + bq)和需求曲线(p = c - dq)共同决定了价格(p)和交易量(q)。然而现实中我们能够观察到的,只是一组均衡时的 p 和 q,基于这个数据,我们用回归只能得到斜率和截距两个参数的估计值。但供给曲线和需求曲线里一共有四个参数(a b c d)。此时,通过回归这种 “简约式(reduced form)” 估计得到的参数,无助于我们得知 “结构式(structural form)” 模型中的 “深层参数(deep parameter)”。我们的系统里的p和q都是内生变量,所以才会出现无法识别的情况。怎么解决这个问题呢?经典的办法是,假定存在着某个不影响需求,只影响供给(或者反过来)的外生变量。比如在渔业中,海上的坏天气很可能阻碍渔船出海,形成一个供给侧的冲击,但应该不会改变人们对海产品的需求。根据天气的变化,我们就有可能估计出全部的四个参数。事实上,这也是 “工具变量(instrumental variable)” 这一估计方法的起源。
面对可能发生的遗漏变量偏误(或无法观察的异方差性),我们已经讨论的三种解决方案
- 忽略此问题,得到有偏而不一致的估计量;
- 我们尝试为无法观测的变量寻找一个适宜的代理变量;
- 我们假定遗漏变量不随时间变化,运用一阶固定效应或一阶差分法
教育工资模型
log
(
w
a
g
e
)
=
β
0
+
β
1
e
d
u
c
+
β
2
a
b
i
l
+
e
\log(wage) = \beta_0 + \beta_1 educ + \beta_2 abil + e
log(wage)=β0+β1educ+β2abil+e
如果找不到合适的代理变量去代替能力(abil),那么就只能把abil放进误差项里面;此时,若educ与abil相关,那么用OLS得到的估计量就会是有偏而不一致的;
一般起见,将abil放进误差项中,重新一般化上述模型
y
=
β
0
+
β
1
x
+
u
y = \beta_0 + \beta_1 x + u
y=β0+β1x+u
若x与u相关,我们可以找一个工具变量z,该变量满足
C
o
v
(
z
,
u
)
=
0
(
1
)
C
o
v
(
z
,
x
)
≠
0
(
2
)
Cov(z,u) = 0 \qquad (1)\\ Cov(z,x) \neq 0 \qquad (2)\\
Cov(z,u)=0(1)Cov(z,x)=0(2)
一般地,人们将满足上述条件的z概括为“z在方程中是外生的”
-
条件 ( 1 ) (1) (1)往往无法检验
-
条件 ( 2 ) (2) (2)则可以构造简单回归,检验系数是否为零
x = π 0 + π 1 z + v x = \pi_0 + \pi_1 z + v x=π0+π1z+v -
工具变量选择举例
在选择工具变量时,处理关注 π 1 ^ \hat{\pi_1} π1^的显著性,更要注意他的符号,显著为正的相关关系更有说服力,显著为负的不一定好(但是解释的好也能用),除了显著性更重要的是经济学逻辑;
IV估计量
我们改写上述方程
C
o
v
(
z
,
y
)
=
β
1
C
o
v
(
z
,
x
)
+
C
o
v
(
z
,
u
)
Cov(z,y) = \beta_1 Cov(z,x) + Cov(z,u)
Cov(z,y)=β1Cov(z,x)+Cov(z,u)
将分子分母的样本容量约去后,得到
β
1
\beta_1
β1的工具变量估计量
β
^
1
=
∑
i
=
1
n
(
z
i
−
z
ˉ
)
(
y
i
−
y
ˉ
)
∑
i
=
1
n
(
z
i
−
z
ˉ
)
(
x
i
−
x
ˉ
)
\hat{\beta}_1 = \frac{\sum_{i=1}^n(z_i-\bar{z})(y_i-\bar{y})}{\sum_{i=1}^n(z_i-\bar{z})(x_i-\bar{x})}
β^1=∑i=1n(zi−zˉ)(xi−xˉ)∑i=1n(zi−zˉ)(yi−yˉ)
- 特别地,当 x = z x=z x=z时,我们得到的OLS估计量;
- 若满足 ( 1 ) ( 2 ) (1)(2) (1)(2)的假定, β 1 \beta_1 β1的IV估计量具有一致性, p l i m ( β ^ 1 ) = β 1 plim(\hat{\beta}_1) = \beta_1 plim(β^1)=β1
注意 无论是OLS还是IV都只是一种估计方法,一个模型就是一个方程,至于用什么去估计模型参数可以是不同的,所以在论述的时候不能说‘我估计了一个IV模型’,只能说‘我采用IV方法来估计模型’;
IV估计法做统计推断
与OLS一致,增加一个同方差假定
E
(
u
2
∣
z
)
=
σ
2
(
3
)
E(u^2|z) = \sigma^2 \qquad (3)
E(u2∣z)=σ2(3)
可以证明,满足三条假定的情况下,
β
^
1
\hat{\beta}_1
β^1的渐近方差为
σ
2
n
σ
x
2
ρ
x
,
z
2
\frac{\sigma^2}{n\sigma^2_x\rho_{x,z}^2}
nσx2ρx,z2σ2
其中,
- σ x 2 \sigma^2_x σx2是x的总体方差,可以根据样本中的x计算得出;
- σ 2 \sigma^2 σ2是u的总体方差,可以用回归得到的残差进行估计;
- ρ x , z 2 \rho_{x,z}^2 ρx,z2是x与z之总体相关系数的平方,可以做x对z的回归得到 R 2 R^2 R2;
- 与OLS估计量一样,IV估计量的渐近方差以 1 n \frac{1}{n} n1的速度降至0;
β
1
^
\hat{\beta_1}
β1^的渐近标准误则可以写成(是上式的估计渐近方差的平方根)
σ
2
^
S
S
T
x
R
˙
x
,
z
2
\sqrt{\frac{\hat{\sigma^2}}{SST_x \dot R^2_{x,z}}}
SSTxR˙x,z2σ2^
对比OLS的方差
σ
2
S
S
T
x
\frac{\sigma^2}{SST_x}
SSTxσ2,IV估计量的方差
σ
2
S
S
T
x
R
˙
x
,
z
2
\frac{\sigma^2}{SST_x \dot R^2_{x,z}}
SSTxR˙x,z2σ2,区别就在
R
x
,
z
2
R^2_{x,z}
Rx,z2上,由于
R
x
,
z
2
R^2_{x,z}
Rx,z2总是小于1,所以这个IV的方差总是大于OLS的方差;若x与z只是轻度相关,则
R
x
,
z
2
R^2_{x,z}
Rx,z2便很小,而这将转化为IV估计量的一个非常大的抽样方差,而这个值越大,IV估计量的方差就越小,在
z
=
x
z=x
z=x时,
R
x
,
z
2
=
1
R^2_{x,z}=1
Rx,z2=1很自然地转化为了OLS的方差;
举个例子
估计已婚女性的教育回报
估计对男性的教育回报
二值工具变量
弱工具问题
当工具变量违背了
C
o
v
(
z
,
u
)
=
0
Cov(z,u) = 0
Cov(z,u)=0,会造成严重的偏误
p
l
i
m
β
^
1
,
I
V
=
β
1
+
C
o
r
r
(
z
,
u
)
C
o
r
r
(
z
,
x
)
⋅
σ
u
σ
x
plim \hat{\beta}_{1,IV} = \beta_1 + \frac{Corr(z,u)}{Corr(z,x)} \cdot \frac{\sigma_u}{\sigma_x}
plimβ^1,IV=β1+Corr(z,x)Corr(z,u)⋅σxσu
而当
C
o
v
(
z
,
x
)
Cov(z,x)
Cov(z,x)趋近于零的时候,更会加重这种偏误,而当工具违背了
C
o
v
(
z
,
x
)
≠
0
Cov(z,x) \neq 0
Cov(z,x)=0则会导致奇怪的结论; 下面是一个违背了假设
(
2
)
(2)
(2)的例子
IV中的 R 2 R^2 R2
R
2
=
1
−
S
S
R
S
S
T
R^2 = 1-\frac{SSR}{SST}
R2=1−SSTSSR
其中
S
S
R
SSR
SSR是残差平方和,而
S
S
T
SST
SST是y的总平方和,与OLS不同,由于IV的SSR实际上可能大于SST,所以IV的估计中
R
2
R^2
R2可能为负。这个
R
2
R^2
R2不能用于F检验,如果我们只是想最大
R
2
R^2
R2的话,我们倾向于使用OLS; 说白了IV的
R
2
R^2
R2就是没啥用.
多元回归模型的IV估计
考虑包含两个解释变量的标准线性模型
y
1
=
β
0
+
β
1
y
2
+
β
2
z
1
+
u
y_1 = \beta_0 + \beta_1 y_2 + \beta_2z_1 + u
y1=β0+β1y2+β2z1+u
称这个方程为结构方程,我们关注的是
β
j
\beta_j
βj,做如下规定:
- y 1 y_1 y1显然是内生变量
- z 1 z_1 z1是外生变量
- y 2 y_2 y2是内生变量,与u中的遗漏变量相关
我们可以寻找
y
2
y_2
y2的一个工具变量
z
2
z_2
z2,这个工具变量除了要满足
C
o
v
(
z
2
,
u
)
=
0
(
4
)
C
o
v
(
z
2
,
y
)
≠
0
(
5
)
Cov(z_2,u) = 0 \quad (4)\\ Cov(z_2,y) \neq 0 \quad (5)\\
Cov(z2,u)=0(4)Cov(z2,y)=0(5)
但是对于
(
5
)
(5)
(5)的判断不能像之前一样只建立一元回归来判断,而是要考虑偏相关
y
2
=
π
0
+
π
1
z
1
+
π
2
z
2
+
v
(
∗
)
y_2 = \pi_0 + \pi_1z_1 + \pi_2 z_2 + v \qquad (*)
y2=π0+π1z1+π2z2+v(∗)
其中,根据前提假设
E
(
v
)
=
0
,
C
o
v
(
z
1
,
v
2
)
=
0
,
C
o
v
(
z
2
,
v
2
)
=
0
E(v) = 0, Cov(z_1,v_2) = 0, Cov(z_2,v_2) = 0
E(v)=0,Cov(z1,v2)=0,Cov(z2,v2)=0
而要检验的假设是(我们希望的拒绝他,这样
z
2
z_2
z2就是
y
2
y_2
y2的工具变量)
π
2
=
0
\pi_2 = 0
π2=0
还是那句话,虽然能得到相关,但是我们无法检验
z
2
z_2
z2与u无关,这需要经济学逻辑;
其中
(
∗
)
(*)
(∗)是简约型方程的一个例子,他意味着我们是用外生变量来表示内生变量,这个名称源于联立方程模型; 将其更一般化,我们可以在模型中添加更多外生解释变量:
y
1
=
β
0
+
β
1
y
2
+
β
2
z
1
+
…
+
β
k
z
k
−
1
+
u
y_1 = \beta_0 + \beta_1 y_2 + \beta_2z_1 + \ldots + \beta_kz_{k-1} + u
y1=β0+β1y2+β2z1+…+βkzk−1+u
找一个
y
2
y_2
y2的工具变量
z
k
z_k
zk,我们做以下假定
E
(
u
)
=
0
,
C
o
v
(
z
j
,
u
)
=
0
,
j
=
1
,
…
,
k
E(u) = 0, Cov(z_j,u) = 0, j=1,\ldots,k
E(u)=0,Cov(zj,u)=0,j=1,…,k
虽然表面上说
y
2
y_2
y2的工具变量是
z
k
z_k
zk,但实际上,
z
1
,
…
,
z
k
z_1,\ldots,z_k
z1,…,zk都可以是
y
2
y_2
y2的工具变量,为了检验
z
k
z_k
zk,
y
2
y_2
y2的简约模型为
y
2
=
π
0
+
π
1
z
1
+
…
+
π
k
−
1
z
k
−
1
+
π
k
z
k
+
v
y_2 = \pi_0 + \pi_1z_1 + \ldots + \pi_{k-1} z_{k-1} + \pi_kz_k + v
y2=π0+π1z1+…+πk−1zk−1+πkzk+v
检验的假设是(我们希望的拒绝他,这样
z
k
z_k
zk就是
y
2
y_2
y2的工具变量)
π
k
=
0
\pi_k = 0
πk=0
举个例子
- 用邻近大学作为教育的IV
两阶段最小二乘
两阶段最小二乘的核心思路是: y的工具变量不止有一个,可能有很多个;
考虑以下模型
y
1
=
β
0
+
β
1
y
2
+
β
2
z
1
+
u
y_1 = \beta_0 + \beta_1 y_2 + \beta_2z_1 + u
y1=β0+β1y2+β2z1+u
- y 2 y_2 y2是内生变量;
- z 1 z_1 z1是外生变量;
- z 2 、 z 3 z_2、z_3 z2、z3是被方程排除在外的外生变量;
- 为了寻找最好的IV,由
y
2
y_2
y2的简约型方程
y 2 = π 0 + π 1 z 1 + π 2 z 2 + π 3 z 3 + v y_2 = \pi_0 + \pi_1z_1 + \pi_2 z_2 + \pi_3 z_3 + v y2=π0+π1z1+π2z2+π3z3+v
其中,满足前提假定
E ( v 2 ) = 0 , C o v ( z 1 , v ) = 0 , C o v ( z 2 , v ) = 0 , C o v ( z 3 , v ) = 0 E(v_2) = 0, Cov(z_1,v)=0,Cov(z_2,v)=0,Cov(z_3,v)=0 E(v2)=0,Cov(z1,v)=0,Cov(z2,v)=0,Cov(z3,v)=0 -
y
2
y_2
y2最好的IV,应该是这些
z
j
z_j
zj的线性组合,我们称之为
y
2
∗
y_2^*
y2∗
y 2 ∗ = π 0 + π 1 z 1 + π 2 z 2 + π 3 z 3 ( 6 ) y_2^* = \pi_0 + \pi_1 z_1 + \pi_2 z_2 + \pi_3 z_3 \qquad (6) y2∗=π0+π1z1+π2z2+π3z3(6) - 为了使该IV与
z
1
z_1
z1不是完全相关的,我们需要
π
2
或
π
3
\pi_2或\pi_3
π2或π3之中至少有一个不为0;
π 2 ≠ 0 或 π 3 ≠ 0 \pi_2 \neq 0 或 \pi_3 \neq 0 π2=0或π3=0
采取F检验,原价设为
π 2 = 0 且 π 3 = 0 \pi_2 = 0 且 \pi_3 = 0 π2=0且π3=0 - 利用样本,我们将
y
2
y_2
y2对
z
1
,
z
2
,
z
3
z_1,z_2,z_3
z1,z2,z3进行回归
y ^ 2 = π 0 ^ + π 1 ^ z 1 + π 2 ^ z 2 + π 3 ^ z 3 \hat{y}_2 = \hat{\pi_0} + \hat{\pi_1} z_1 + \hat{\pi_2} z_2 + \hat{\pi_3} z_3 y^2=π0^+π1^z1+π2^z2+π3^z3 - 得到 y ^ 2 \hat{y}_2 y^2,就可以当作 y 2 y_2 y2的IV,带回原方程,得到IV估计量;在此方法下,得到的IV估计量也称为两阶段最小二乘估计量;
经济学家喜欢这样解释两阶段最小二乘,拟合值 y ^ 2 \hat{y}_2 y^2是 y 2 ∗ y_2^* y2∗的估计形式, y 2 ∗ y_2^* y2∗与u不相关,因此,2SLS在做OLS回归前“清除了” y 2 y_2 y2中与u的相关性;
职业女性的教育回报的例子
多个内生解释变量
如果模型有不止一个内生解释变量,假设为 y 2 , y 3 y_2,y_3 y2,y3,我们至少需要两个外生变量,如 z 4 , z 5 z_4,z_5 z4,z5,但是如果只有一个外生变量 z 4 z_4 z4出现在 y 2 , y 3 y_2,y_3 y2,y3约简型方程中,而 z 5 z_5 z5没有出现,那么得到的 β j \beta_j βj就是有偏的;
总结需要的条件
- 阶条件:被排斥的外生变量 ≥ \geq ≥ 结构方程中的内生变量
内生性检验
当解释变量外生时,2SLS估计量的有效性不如OLS;2SLS估计值的标准误较大;
考虑一个疑似有内生变量的模型
y
1
=
β
0
+
β
1
y
2
+
β
2
z
1
+
β
3
z
2
+
u
y_1 = \beta_0 + \beta_1 y_2 + \beta_2 z_1 + \beta_3 z_2 + u
y1=β0+β1y2+β2z1+β3z2+u
其中,
-
z 1 , z 2 z_1,z_2 z1,z2是外生的, z 3 , z 4 z_3,z_4 z3,z4是被排斥的外生变量;
-
y 2 y_2 y2可能是内生的;
-
豪斯曼认为,可以直接比较OLS与2SLS的估计值是否有显著性区别,因为如果变量是外生的,那么估计值应该一致
-
但利用回归能更好的检验,要以 y 2 y_2 y2的简约型为基础
y 2 = π 0 + π 1 z 1 + π 2 z 2 + π 3 z 3 + π 4 z 4 + v y_2 = \pi_0 + \pi_1 z_1 + \pi_2 z_2 + \pi_3 z_3 +\pi_4 z_4 + v y2=π0+π1z1+π2z2+π3z3+π4z4+v
因为各个 z j 与 u z_j与u zj与u不相关的充要条件是 v 与 u v与u v与u不相关(我理解的是,用外生变量替代的工具变量 y 2 y_2 y2应该要与u不相关,而这个工具变量一定与v相关,所以要求v与u不相关才行)
我们需要检验的就是
u
=
δ
1
v
+
e
u = \delta_1 v + e
u=δ1v+e,其中
e
与
v
e与v
e与v不相关,
v
与
u
v与u
v与u不相关的充要条件是
δ
1
=
0
\delta_1 = 0
δ1=0,而检验这一点最简单的就是直接将v加入方程,而
v
^
\hat{v}
v^则是通过OLS估计得到
y
1
=
β
0
+
β
1
y
2
+
β
2
z
1
+
β
3
z
2
+
δ
1
v
^
+
e
y_1 = \beta_0 + \beta_1 y_2 + \beta_2 z_1 + \beta_3 z_2 + \delta_1 \hat{v} + e
y1=β0+β1y2+β2z1+β3z2+δ1v^+e
如果拒绝了原价设
δ
1
=
0
\delta_1 = 0
δ1=0,那么可以断定
y
2
y_2
y2是内生的;
总结 --检验单个解释变量内生性
- 通过将 y 2 y_2 y2对所有外生变量回归(包括结构方程中的外生变量和额外的IV)回归而估计 y 3 y_3 y3的约简方程,得到残差 v ^ \hat{v} v^
- 在(包括 y 2 y_2 y2的)结构方程中添加 v ^ \hat{v} v^,并用一个OLS回归检验 v ^ \hat{v} v^的显著性,若 v ^ \hat{v} v^的系数显著异于零,就判断 y 2 y_2 y2确实是内生的。我们可能需要用到一个异方差-稳健的t统计量;
职业女性的教育回报的例子
过度识别约束检验
前面我们对外生工具变量做了两个假定:
C
o
v
(
z
,
u
)
=
0
(
1
)
C
o
v
(
z
,
x
)
≠
0
(
2
)
Cov(z,u) = 0 \qquad (1)\\ Cov(z,x) \neq 0 \qquad (2)\\
Cov(z,u)=0(1)Cov(z,x)=0(2)
我们说
(
2
)
(2)
(2)是可以检验的,但是
(
1
)
(1)
(1)不能检验,需要基于经济学逻辑,然而如果不止有一个工具变量(或者工具变量数大于内生解释变量),那么我们就能有效地检验他们中的一部分是否与结构误差不相关;
假如内生变量 y 2 y_2 y2有两个工具变量 z 3 和 z 4 z_3和z_4 z3和z4的条件下,我们可以选择同时用两个工具变量作为 y 2 y_2 y2的IV估计;
- 我们也可以仅用 z 3 z_3 z3来作为 y 2 y_2 y2的估计,得到 β 1 \beta_1 β1的IV估计量,记为 β ˘ 1 \breve{\beta}_1 β˘1;
- 仅用 z 4 z_4 z4来作为 y 2 y_2 y2的估计,得到 β 1 \beta_1 β1的IV估计量,记为 β ~ 1 \tilde{\beta}_1 β~1;
- 如果所有 z z z都是外生的,那么 β ˘ 1 与 β ~ 1 \breve{\beta}_1与\tilde{\beta}_1 β˘1与β~1都是 β 1 \beta_1 β1的一致估计量;
总结 --过度识别约束检验
- 用2SLS法估计结构方程,获得2SLS残差 u ^ \hat{u} u^;
- 将 u ^ \hat{u} u^对所有外生变量回归,获得 R 2 R^2 R2,即 R 1 2 R^2_1 R12;
- 在所有IV都与u不相关的原假设下, n R 1 2 ∼ X q 2 nR^2_1 \sim \Chi_q^2 nR12∼Xq2,其中,q是模型之外的工具变量数目减去内生解释变量的总数目。如果 n R 2 nR^2 nR2超过了 X q 2 \Chi_q^2 Xq2分布中的临界值(如5%),我们拒绝 H 0 H_0 H0,并推断出至少部分IV不是外生的;
职业女性的教育回报的例子
将2SLS应用于面板数据