【计量经济学】工具变量估计与两阶段最小二乘法

本文介绍了工具变量估计(IV)在计量经济学中的应用,针对内生性问题提供了解决策略,包括IV估计量的计算、例子分析(如教育回报估计)、IV估计法的统计推断、多元回归模型的IV估计,以及两阶段最小二乘法的原理和实际案例。讨论了R2在IV中的意义、过度识别约束检验,并展示了如何处理多内生变量和面板数据的IV估计。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

工具变量估计与两阶段最小二乘法–潘登同学的计量经济学笔记


本篇着重解决内生解释变量问题,内生性就是模型中一个或者多个解释变量与随机扰动项相关;内生性产生的原因有

  • 遗漏变量,且遗漏变量与模型中的其他解释变量相关;
  • 解释变量与被解释变量相互作用,相互影响,互为因果;
  • 自我选择偏误;
  • 样本选择偏误;

工具变量估计

举个最简单的例子,经济学里基本的供求模型告诉我们,供给曲线(p = a + bq)和需求曲线(p = c - dq)共同决定了价格(p)和交易量(q)。然而现实中我们能够观察到的,只是一组均衡时的 p 和 q,基于这个数据,我们用回归只能得到斜率和截距两个参数的估计值。但供给曲线和需求曲线里一共有四个参数(a b c d)。此时,通过回归这种 “简约式(reduced form)” 估计得到的参数,无助于我们得知 “结构式(structural form)” 模型中的 “深层参数(deep parameter)”。我们的系统里的p和q都是内生变量,所以才会出现无法识别的情况。怎么解决这个问题呢?经典的办法是,假定存在着某个不影响需求,只影响供给(或者反过来)的外生变量。比如在渔业中,海上的坏天气很可能阻碍渔船出海,形成一个供给侧的冲击,但应该不会改变人们对海产品的需求。根据天气的变化,我们就有可能估计出全部的四个参数。事实上,这也是 “工具变量(instrumental variable)” 这一估计方法的起源。

面对可能发生的遗漏变量偏误(或无法观察的异方差性),我们已经讨论的三种解决方案

  1. 忽略此问题,得到有偏而不一致的估计量;
  2. 我们尝试为无法观测的变量寻找一个适宜的代理变量;
  3. 我们假定遗漏变量不随时间变化,运用一阶固定效应或一阶差分法

教育工资模型
log ⁡ ( w a g e ) = β 0 + β 1 e d u c + β 2 a b i l + e \log(wage) = \beta_0 + \beta_1 educ + \beta_2 abil + e log(wage)=β0+β1educ+β2abil+e
如果找不到合适的代理变量去代替能力(abil),那么就只能把abil放进误差项里面;此时,若educ与abil相关,那么用OLS得到的估计量就会是有偏而不一致的;

一般起见,将abil放进误差项中,重新一般化上述模型
y = β 0 + β 1 x + u y = \beta_0 + \beta_1 x + u y=β0+β1x+u
若x与u相关,我们可以找一个工具变量z,该变量满足
C o v ( z , u ) = 0 ( 1 ) C o v ( z , x ) ≠ 0 ( 2 ) Cov(z,u) = 0 \qquad (1)\\ Cov(z,x) \neq 0 \qquad (2)\\ Cov(z,u)=0(1)Cov(z,x)=0(2)
一般地,人们将满足上述条件的z概括为“z在方程中是外生的

  • 条件 ( 1 ) (1) (1)往往无法检验

  • 条件 ( 2 ) (2) (2)则可以构造简单回归,检验系数是否为零
    x = π 0 + π 1 z + v x = \pi_0 + \pi_1 z + v x=π0+π1z+v

  • 工具变量选择举例
    在这里插入图片描述

在选择工具变量时,处理关注 π 1 ^ \hat{\pi_1} π1^的显著性,更要注意他的符号,显著为正的相关关系更有说服力,显著为负的不一定好(但是解释的好也能用),除了显著性更重要的是经济学逻辑;

IV估计量

我们改写上述方程
C o v ( z , y ) = β 1 C o v ( z , x ) + C o v ( z , u ) Cov(z,y) = \beta_1 Cov(z,x) + Cov(z,u) Cov(z,y)=β1Cov(z,x)+Cov(z,u)

将分子分母的样本容量约去后,得到 β 1 \beta_1 β1的工具变量估计量
β ^ 1 = ∑ i = 1 n ( z i − z ˉ ) ( y i − y ˉ ) ∑ i = 1 n ( z i − z ˉ ) ( x i − x ˉ ) \hat{\beta}_1 = \frac{\sum_{i=1}^n(z_i-\bar{z})(y_i-\bar{y})}{\sum_{i=1}^n(z_i-\bar{z})(x_i-\bar{x})} β^1=i=1n(zizˉ)(xixˉ)i=1n(zizˉ)(yiyˉ)

  • 特别地,当 x = z x=z x=z时,我们得到的OLS估计量;
  • 若满足 ( 1 ) ( 2 ) (1)(2) (1)(2)的假定, β 1 \beta_1 β1的IV估计量具有一致性, p l i m ( β ^ 1 ) = β 1 plim(\hat{\beta}_1) = \beta_1 plim(β^1)=β1

注意 无论是OLS还是IV都只是一种估计方法,一个模型就是一个方程,至于用什么去估计模型参数可以是不同的,所以在论述的时候不能说‘我估计了一个IV模型’,只能说‘我采用IV方法来估计模型’;

IV估计法做统计推断

与OLS一致,增加一个同方差假定
E ( u 2 ∣ z ) = σ 2 ( 3 ) E(u^2|z) = \sigma^2 \qquad (3) E(u2z)=σ2(3)
可以证明,满足三条假定的情况下, β ^ 1 \hat{\beta}_1 β^1的渐近方差为
σ 2 n σ x 2 ρ x , z 2 \frac{\sigma^2}{n\sigma^2_x\rho_{x,z}^2} nσx2ρx,z2σ2
其中,

  • σ x 2 \sigma^2_x σx2是x的总体方差,可以根据样本中的x计算得出;
  • σ 2 \sigma^2 σ2是u的总体方差,可以用回归得到的残差进行估计;
  • ρ x , z 2 \rho_{x,z}^2 ρx,z2是x与z之总体相关系数的平方,可以做x对z的回归得到 R 2 R^2 R2
  • 与OLS估计量一样,IV估计量的渐近方差以 1 n \frac{1}{n} n1的速度降至0;

β 1 ^ \hat{\beta_1} β1^的渐近标准误则可以写成(是上式的估计渐近方差的平方根)
σ 2 ^ S S T x R ˙ x , z 2 \sqrt{\frac{\hat{\sigma^2}}{SST_x \dot R^2_{x,z}}} SSTxR˙x,z2σ2^
对比OLS的方差 σ 2 S S T x \frac{\sigma^2}{SST_x} SSTxσ2,IV估计量的方差 σ 2 S S T x R ˙ x , z 2 \frac{\sigma^2}{SST_x \dot R^2_{x,z}} SSTxR˙x,z2σ2,区别就在 R x , z 2 R^2_{x,z} Rx,z2上,由于 R x , z 2 R^2_{x,z} Rx,z2总是小于1,所以这个IV的方差总是大于OLS的方差;若x与z只是轻度相关,则 R x , z 2 R^2_{x,z} Rx,z2便很小,而这将转化为IV估计量的一个非常大的抽样方差,而这个值越大,IV估计量的方差就越小,在 z = x z=x z=x时, R x , z 2 = 1 R^2_{x,z}=1 Rx,z2=1很自然地转化为了OLS的方差;

举个例子

估计已婚女性的教育回报

在这里插入图片描述

估计对男性的教育回报

在这里插入图片描述

在这里插入图片描述

二值工具变量

在这里插入图片描述

在这里插入图片描述

弱工具问题

当工具变量违背了 C o v ( z , u ) = 0 Cov(z,u) = 0 Cov(z,u)=0,会造成严重的偏误
p l i m β ^ 1 , I V = β 1 + C o r r ( z , u ) C o r r ( z , x ) ⋅ σ u σ x plim \hat{\beta}_{1,IV} = \beta_1 + \frac{Corr(z,u)}{Corr(z,x)} \cdot \frac{\sigma_u}{\sigma_x} plimβ^1,IV=β1+Corr(z,x)Corr(z,u)σxσu
而当 C o v ( z , x ) Cov(z,x) Cov(z,x)趋近于零的时候,更会加重这种偏误,而当工具违背了 C o v ( z , x ) ≠ 0 Cov(z,x) \neq 0 Cov(z,x)=0则会导致奇怪的结论; 下面是一个违背了假设 ( 2 ) (2) (2)的例子

在这里插入图片描述

IV中的 R 2 R^2 R2

R 2 = 1 − S S R S S T R^2 = 1-\frac{SSR}{SST} R2=1SSTSSR
其中 S S R SSR SSR是残差平方和,而 S S T SST SST是y的总平方和,与OLS不同,由于IV的SSR实际上可能大于SST,所以IV的估计中 R 2 R^2 R2可能为负。这个 R 2 R^2 R2不能用于F检验,如果我们只是想最大 R 2 R^2 R2的话,我们倾向于使用OLS; 说白了IV的 R 2 R^2 R2就是没啥用.

多元回归模型的IV估计

考虑包含两个解释变量的标准线性模型
y 1 = β 0 + β 1 y 2 + β 2 z 1 + u y_1 = \beta_0 + \beta_1 y_2 + \beta_2z_1 + u y1=β0+β1y2+β2z1+u
称这个方程为结构方程,我们关注的是 β j \beta_j βj,做如下规定:

  • y 1 y_1 y1显然是内生变量
  • z 1 z_1 z1是外生变量
  • y 2 y_2 y2是内生变量,与u中的遗漏变量相关

我们可以寻找 y 2 y_2 y2的一个工具变量 z 2 z_2 z2,这个工具变量除了要满足
C o v ( z 2 , u ) = 0 ( 4 ) C o v ( z 2 , y ) ≠ 0 ( 5 ) Cov(z_2,u) = 0 \quad (4)\\ Cov(z_2,y) \neq 0 \quad (5)\\ Cov(z2,u)=0(4)Cov(z2,y)=0(5)
但是对于 ( 5 ) (5) (5)的判断不能像之前一样只建立一元回归来判断,而是要考虑偏相关
y 2 = π 0 + π 1 z 1 + π 2 z 2 + v ( ∗ ) y_2 = \pi_0 + \pi_1z_1 + \pi_2 z_2 + v \qquad (*) y2=π0+π1z1+π2z2+v()
其中,根据前提假设
E ( v ) = 0 , C o v ( z 1 , v 2 ) = 0 , C o v ( z 2 , v 2 ) = 0 E(v) = 0, Cov(z_1,v_2) = 0, Cov(z_2,v_2) = 0 E(v)=0,Cov(z1,v2)=0,Cov(z2,v2)=0
而要检验的假设是(我们希望的拒绝他,这样 z 2 z_2 z2就是 y 2 y_2 y2的工具变量)
π 2 = 0 \pi_2 = 0 π2=0
还是那句话,虽然能得到相关,但是我们无法检验 z 2 z_2 z2与u无关,这需要经济学逻辑;

其中 ( ∗ ) (*) ()是简约型方程的一个例子,他意味着我们是用外生变量来表示内生变量,这个名称源于联立方程模型; 将其更一般化,我们可以在模型中添加更多外生解释变量:
y 1 = β 0 + β 1 y 2 + β 2 z 1 + … + β k z k − 1 + u y_1 = \beta_0 + \beta_1 y_2 + \beta_2z_1 + \ldots + \beta_kz_{k-1} + u y1=β0+β1y2+β2z1++βkzk1+u
找一个 y 2 y_2 y2的工具变量 z k z_k zk,我们做以下假定
E ( u ) = 0 , C o v ( z j , u ) = 0 , j = 1 , … , k E(u) = 0, Cov(z_j,u) = 0, j=1,\ldots,k E(u)=0,Cov(zj,u)=0,j=1,,k
虽然表面上说 y 2 y_2 y2的工具变量是 z k z_k zk,但实际上, z 1 , … , z k z_1,\ldots,z_k z1,,zk都可以是 y 2 y_2 y2的工具变量,为了检验 z k z_k zk y 2 y_2 y2的简约模型为
y 2 = π 0 + π 1 z 1 + … + π k − 1 z k − 1 + π k z k + v y_2 = \pi_0 + \pi_1z_1 + \ldots + \pi_{k-1} z_{k-1} + \pi_kz_k + v y2=π0+π1z1++πk1zk1+πkzk+v
检验的假设是(我们希望的拒绝他,这样 z k z_k zk就是 y 2 y_2 y2的工具变量)
π k = 0 \pi_k = 0 πk=0

举个例子

  • 用邻近大学作为教育的IV
    在这里插入图片描述

在这里插入图片描述

两阶段最小二乘

两阶段最小二乘的核心思路是: y的工具变量不止有一个,可能有很多个;

考虑以下模型
y 1 = β 0 + β 1 y 2 + β 2 z 1 + u y_1 = \beta_0 + \beta_1 y_2 + \beta_2z_1 + u y1=β0+β1y2+β2z1+u

  • y 2 y_2 y2是内生变量;
  • z 1 z_1 z1是外生变量;
  • z 2 、 z 3 z_2、z_3 z2z3是被方程排除在外的外生变量;
  1. 为了寻找最好的IV,由 y 2 y_2 y2的简约型方程
    y 2 = π 0 + π 1 z 1 + π 2 z 2 + π 3 z 3 + v y_2 = \pi_0 + \pi_1z_1 + \pi_2 z_2 + \pi_3 z_3 + v y2=π0+π1z1+π2z2+π3z3+v
    其中,满足前提假定
    E ( v 2 ) = 0 , C o v ( z 1 , v ) = 0 , C o v ( z 2 , v ) = 0 , C o v ( z 3 , v ) = 0 E(v_2) = 0, Cov(z_1,v)=0,Cov(z_2,v)=0,Cov(z_3,v)=0 E(v2)=0,Cov(z1,v)=0,Cov(z2,v)=0,Cov(z3,v)=0
  2. y 2 y_2 y2最好的IV,应该是这些 z j z_j zj的线性组合,我们称之为 y 2 ∗ y_2^* y2
    y 2 ∗ = π 0 + π 1 z 1 + π 2 z 2 + π 3 z 3 ( 6 ) y_2^* = \pi_0 + \pi_1 z_1 + \pi_2 z_2 + \pi_3 z_3 \qquad (6) y2=π0+π1z1+π2z2+π3z3(6)
  3. 为了使该IV与 z 1 z_1 z1不是完全相关的,我们需要 π 2 或 π 3 \pi_2或\pi_3 π2π3之中至少有一个不为0;
    π 2 ≠ 0 或 π 3 ≠ 0 \pi_2 \neq 0 或 \pi_3 \neq 0 π2=0π3=0
    采取F检验,原价设为
    π 2 = 0 且 π 3 = 0 \pi_2 = 0 且 \pi_3 = 0 π2=0π3=0
  4. 利用样本,我们将 y 2 y_2 y2 z 1 , z 2 , z 3 z_1,z_2,z_3 z1,z2,z3进行回归
    y ^ 2 = π 0 ^ + π 1 ^ z 1 + π 2 ^ z 2 + π 3 ^ z 3 \hat{y}_2 = \hat{\pi_0} + \hat{\pi_1} z_1 + \hat{\pi_2} z_2 + \hat{\pi_3} z_3 y^2=π0^+π1^z1+π2^z2+π3^z3
  5. 得到 y ^ 2 \hat{y}_2 y^2,就可以当作 y 2 y_2 y2的IV,带回原方程,得到IV估计量;在此方法下,得到的IV估计量也称为两阶段最小二乘估计量;

经济学家喜欢这样解释两阶段最小二乘,拟合值 y ^ 2 \hat{y}_2 y^2 y 2 ∗ y_2^* y2的估计形式, y 2 ∗ y_2^* y2与u不相关,因此,2SLS在做OLS回归前“清除了” y 2 y_2 y2中与u的相关性;

职业女性的教育回报的例子

在这里插入图片描述

多个内生解释变量

如果模型有不止一个内生解释变量,假设为 y 2 , y 3 y_2,y_3 y2,y3,我们至少需要两个外生变量,如 z 4 , z 5 z_4,z_5 z4,z5,但是如果只有一个外生变量 z 4 z_4 z4出现在 y 2 , y 3 y_2,y_3 y2,y3约简型方程中,而 z 5 z_5 z5没有出现,那么得到的 β j \beta_j βj就是有偏的;

总结需要的条件

  • 阶条件:被排斥的外生变量 ≥ \geq 结构方程中的内生变量

内生性检验

当解释变量外生时,2SLS估计量的有效性不如OLS;2SLS估计值的标准误较大;

考虑一个疑似有内生变量的模型
y 1 = β 0 + β 1 y 2 + β 2 z 1 + β 3 z 2 + u y_1 = \beta_0 + \beta_1 y_2 + \beta_2 z_1 + \beta_3 z_2 + u y1=β0+β1y2+β2z1+β3z2+u
其中,

  • z 1 , z 2 z_1,z_2 z1,z2是外生的, z 3 , z 4 z_3,z_4 z3,z4是被排斥的外生变量;

  • y 2 y_2 y2可能是内生的;

  • 豪斯曼认为,可以直接比较OLS与2SLS的估计值是否有显著性区别,因为如果变量是外生的,那么估计值应该一致

  • 但利用回归能更好的检验,要以 y 2 y_2 y2的简约型为基础
    y 2 = π 0 + π 1 z 1 + π 2 z 2 + π 3 z 3 + π 4 z 4 + v y_2 = \pi_0 + \pi_1 z_1 + \pi_2 z_2 + \pi_3 z_3 +\pi_4 z_4 + v y2=π0+π1z1+π2z2+π3z3+π4z4+v
    因为各个 z j 与 u z_j与u zju不相关的充要条件是 v 与 u v与u vu不相关(我理解的是,用外生变量替代的工具变量 y 2 y_2 y2应该要与u不相关,而这个工具变量一定与v相关,所以要求v与u不相关才行)

我们需要检验的就是 u = δ 1 v + e u = \delta_1 v + e u=δ1v+e,其中 e 与 v e与v ev不相关, v 与 u v与u vu不相关的充要条件是 δ 1 = 0 \delta_1 = 0 δ1=0,而检验这一点最简单的就是直接将v加入方程,而 v ^ \hat{v} v^则是通过OLS估计得到
y 1 = β 0 + β 1 y 2 + β 2 z 1 + β 3 z 2 + δ 1 v ^ + e y_1 = \beta_0 + \beta_1 y_2 + \beta_2 z_1 + \beta_3 z_2 + \delta_1 \hat{v} + e y1=β0+β1y2+β2z1+β3z2+δ1v^+e
如果拒绝了原价设 δ 1 = 0 \delta_1 = 0 δ1=0,那么可以断定 y 2 y_2 y2是内生的;

总结 --检验单个解释变量内生性

  1. 通过将 y 2 y_2 y2对所有外生变量回归(包括结构方程中的外生变量和额外的IV)回归而估计 y 3 y_3 y3的约简方程,得到残差 v ^ \hat{v} v^
  2. 在(包括 y 2 y_2 y2的)结构方程中添加 v ^ \hat{v} v^,并用一个OLS回归检验 v ^ \hat{v} v^的显著性,若 v ^ \hat{v} v^的系数显著异于零,就判断 y 2 y_2 y2确实是内生的。我们可能需要用到一个异方差-稳健的t统计量;

职业女性的教育回报的例子

在这里插入图片描述

过度识别约束检验

前面我们对外生工具变量做了两个假定:
C o v ( z , u ) = 0 ( 1 ) C o v ( z , x ) ≠ 0 ( 2 ) Cov(z,u) = 0 \qquad (1)\\ Cov(z,x) \neq 0 \qquad (2)\\ Cov(z,u)=0(1)Cov(z,x)=0(2)
我们说 ( 2 ) (2) (2)是可以检验的,但是 ( 1 ) (1) (1)不能检验,需要基于经济学逻辑,然而如果不止有一个工具变量(或者工具变量数大于内生解释变量),那么我们就能有效地检验他们中的一部分是否与结构误差不相关;

假如内生变量 y 2 y_2 y2有两个工具变量 z 3 和 z 4 z_3和z_4 z3z4的条件下,我们可以选择同时用两个工具变量作为 y 2 y_2 y2的IV估计;

  • 我们也可以仅用 z 3 z_3 z3来作为 y 2 y_2 y2的估计,得到 β 1 \beta_1 β1的IV估计量,记为 β ˘ 1 \breve{\beta}_1 β˘1;
  • 仅用 z 4 z_4 z4来作为 y 2 y_2 y2的估计,得到 β 1 \beta_1 β1的IV估计量,记为 β ~ 1 \tilde{\beta}_1 β~1;
  • 如果所有 z z z都是外生的,那么 β ˘ 1 与 β ~ 1 \breve{\beta}_1与\tilde{\beta}_1 β˘1β~1都是 β 1 \beta_1 β1的一致估计量;

总结 --过度识别约束检验

  1. 用2SLS法估计结构方程,获得2SLS残差 u ^ \hat{u} u^;
  2. u ^ \hat{u} u^对所有外生变量回归,获得 R 2 R^2 R2,即 R 1 2 R^2_1 R12;
  3. 在所有IV都与u不相关的原假设下, n R 1 2 ∼ X q 2 nR^2_1 \sim \Chi_q^2 nR12Xq2,其中,q是模型之外的工具变量数目减去内生解释变量的总数目。如果 n R 2 nR^2 nR2超过了 X q 2 \Chi_q^2 Xq2分布中的临界值(如5%),我们拒绝 H 0 H_0 H0,并推断出至少部分IV不是外生的;

职业女性的教育回报的例子

在这里插入图片描述
在这里插入图片描述

将2SLS应用于面板数据

在这里插入图片描述
在这里插入图片描述

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

PD我是你的真爱粉

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值