内生性问题—工具变量法

泥壶映雪

已于 2022-06-23 19:10:03 修改

阅读量9.1k

点赞数 14

分类专栏：计量经济学文章标签：机器学习数据分析大数据线性代数概率论

于 2021-06-17 08:55:45 首次发布

本文链接：https://blog.csdn.net/weixin_46649908/article/details/117978614

版权

计量经济学专栏收录该内容

37 篇文章 13 订阅

订阅专栏

文章目录

@[toc]
1 什么是内生性
2 内生性的来源
2.1遗漏变量偏差
2.2 联立方程偏差
2.3 解释变量测量误差
2.4 选择偏差
2.5 双向因果关系
2.6 模型设定偏误
2.7 动态面板偏差

3 工具变量
3.1工具变量的思想
3.2 两阶段最小二乘法
3.3 Wald估计量

4 矩估计
5 二阶段最小二乘法
5.1 阶条件
5.2 球形扰动假定条件下的 2SLS

6 关于工具变量的检验
6.1 内生性检验
6.2 过度识别(冗余)检验
6.3 弱工具变量检验
6.31 弱工具变量的识别方法
6.32 弱工具变量的处理方法

7 如何寻找工具变量

1 什么是内生性

经典线性回归模型
$\boldsymbol X \boldsymbol \beta + \boldsymbol \varepsilon \tag{1}$
一个假设是所有解释变量与任意时期的扰动项均不相关(严格外生性假定），即
$E(\boldsymbol \varepsilon|\boldsymbol X) = 0 \tag{2}$
这意味着
$E(\boldsymbol\varepsilon) =0；Cov(x_{ik},\varepsilon_{j}) =0，\forall j,k$
其中第一个条件可由(2)通过迭代期望定律证明，第二个条件由协方差定义证明。在大样本OLS估计中，也必须满足解释变量为预定(前定)解释变量，即
$Cov(x_{ik} ,\varepsilon_i) =0$
在大样本中只要所有解释变量与扰动项同期不相关，其他大样本OLS假定不变条件下，通过OLS+稳健标准误就能得到一致估计量。但事实上，模型中解释变量与扰动项一般都存在相关性，这种相关性会导致估计量的不一致，产生内生性问题。此时称与扰动项相关的解释变量薇内生解释变量。具有内生性的解释变量不是随机的，而是受到系统中其他因素的影响。在理论上，多元线性回归模型OLS估计量
$\hat{\boldsymbol \beta} = ({\boldsymbol X}^{\prime} \boldsymbol X)^{-1} {\boldsymbol X }^{\prime}\boldsymbol y$
将(1)式带入上式
$\hat{\boldsymbol \beta} =({\boldsymbol X}^{\prime} \boldsymbol X)^{-1} {\boldsymbol X }^{\prime}\boldsymbol ( \boldsymbol X \boldsymbol \beta + \boldsymbol \varepsilon ) = \boldsymbol \beta+ ({\boldsymbol X}^{\prime}\boldsymbol X)^{-1}{\boldsymbol X }^{\prime}\boldsymbol\varepsilon$
两边取期望得
$\hat{\boldsymbol \beta} = \boldsymbol \beta+ ({\boldsymbol X}^{\prime}\boldsymbol X)^{-1}{\boldsymbol X }^{\prime}\boldsymbol\varepsilon$
即
$\hat{\boldsymbol \beta} - \boldsymbol \beta = ({\boldsymbol X}^{\prime}\boldsymbol X)^{-1}{\boldsymbol X }^{\prime}\boldsymbol\varepsilon$
两边求条件期望得
$E(\hat{\boldsymbol \beta} - \boldsymbol \beta |\boldsymbol X)= \boldsymbol X({\boldsymbol X}^{\prime}\boldsymbol X)^{-1}{\boldsymbol X }^{\prime}\boldsymbol E(\boldsymbol\varepsilon|\boldsymbol X) = \boldsymbol A E(\boldsymbol\varepsilon|\boldsymbol X)$
其中 $\boldsymbol A = \boldsymbol X({\boldsymbol X}^{\prime}\boldsymbol X)^{-1}{\boldsymbol X }^{\prime}$ 。当严格外生性条件(2)不成立时，即便样本容量 $\to \infty$ ，也不能消除内生性问题带来的偏差。

2 内生性的来源

按照内生性来源，主要划分为以下七类：

2.1遗漏变量偏差

如果对研究对象的影响因素考虑不全面，或者对影响因素信息的不可观测，这可能导致回归模型遗漏了重要的解释变量。假如真实的回归模型为
$y_i = a + bx_1 + cx_2 +\varepsilon$
假定 $Cov(x_1,\varepsilon) =0,Cov(x_2,\varepsilon) =0$ 。由于变量 $x_2$ 不可观测，实际的回归模型变为
$y_i = a + bx_1 + u$
其中 $cx_2+\varepsilon$ 。考虑
$Cov(x_1 ,u) = Cov(x_1 ,cx_2+\varepsilon) = c*Cov（x_1,x_2)+Cov(x_1,\varepsilon) = c*Cov（x_1,x_2)$

当 $x_1$ 与 $x_2$ 不相关时， $Cov（x_1,x_2) =0$ ，从而 $Cov(x_1 ,u) =0$ ，此时实际模不存在内生性问题，由于扰动项的信息量增加，这将会增加扰动项的方差。
当 $x_1$ 与 $x_2$ 相关时， $Cov（x_1,x_2) \ne 0$ ，从而 $Cov(x_1 ,u) \ne 0$ ，此时实际模型存在内生性问题。

2.2 联立方程偏差

联立方程偏差也称内生变量偏差，其最为经典的例子是供求均衡模型：
$\begin{aligned} \left\{ \begin{array}{lll} q_t^s =\alpha_0 + \alpha_1p_t +u_t \\ q_t^d=\beta_0 + \beta_1p_t +v_t \\ q_t^s = q_t^d \end{array} \right. \end{aligned}$
解得
$\begin{aligned} \left\{ \begin{array}{lll} p_t = p_t(u_t,v_t)=\frac{\beta_0 -\alpha_0}{\alpha_1 - \beta_1} +\frac{v_t-u_t}{\alpha_1 - \beta_1} \\ \\ q_t = q_t(u_t,v_t) = \frac{\alpha_1\beta_0 - \alpha_0\beta_1}{\alpha_1 - \beta_1}+ \frac{\alpha_1v_t - \beta_1u_t}{\alpha_1 - \beta_1} \end{array} \right. \end{aligned}$

显然 $Cov(p_t ,u_t) \ne 0$ , $Cov(q_t ,v_t) \ne 0$ ，因此估计量 $\hat \alpha_1$ 与 $\hat \beta_1$ 的估计量不是一致的。

2.3 解释变量测量误差

设真实回归模型为
$bx^{*}+\varepsilon \tag{3}$
其中 $Cov(x,\varepsilon) =0$ .由于客观或主观原因导致对解释变量 $x^{*}$ 的测量存在误差，使得实际观测的解释变量
$x^{*} + e \tag{4}$
其中 $e = x - x^{*}$ 表示绝对误差。技术条件 $Cov(x^{*},e) = 0$ , $Cov(e,\varepsilon) =0$ 。将(4)带入(3)得
$b(x-e)+\varepsilon = a+bx+(\varepsilon -be)$
由于
$\begin{aligned} Cov(x,\varepsilon -be) &= Cov(x,\varepsilon)-bCov(x,e) \\ &=Cov( x^{*} + e ,\varepsilon)-bCov(x^{*} + e ,e) \\ &=Cov(x^{*},e)+Cov(x^{*},\varepsilon) -bCov(x^{*},e)-bCov(e,e) \\ &=0+0+0-bVar(e) = -b\sigma_e^2 \ne 0 \end{aligned}$
因此如果解释变量存在测量误差，解释变量存在内生性，导致回归存在结果存在偏差。如果被解释变量存在测量误差，总可以将绝对误差移向归并到扰动项中，从而扩大了扰动项的方差(如果解释变量不存在内生性)，回归系数的方差会增大。但不会导致内生性问题。

2.4 选择偏差

选择偏差包括自选择偏差(self-selectionbias)和样本选择偏差(sample-selection bias)。

自选择偏差是指解释变量不是随机的,而是选择的结果,而这个选择的过程会使对主效应的估计产生偏差(Shaver, 1998

Weigelt (2013)研究IT业务内包或是外包的不同情境下,供应商IT能力和公司运营能力交互效应对公司绩效的不同影响。其中对公司IT业务内包或是外包的选择就存在选择偏差，因为公司IT业务到底是内包还是外包其实是一种战略选择，因而它并不是外生的(随机的)。公司可以根据自身特质(更适合哪种战略)和针对不同战略选择(内包还是外包)对未来绩效的预测而有意识选择的。因此如果只考虑主效应的影响而忽视潜在的选择过程,对主效应的估计是有偏的，因为前后两个过程的误差项是相关的(Shaver, 1998)。

样本选择偏差(Heckman, 1979),是指样本选择不是随机的,从而使估计量产生偏差。样本选择偏差扣除人为因素,主要是由自选择偏差造成的。

Perkins (2014)研究了跨国公司制度经验与目标国家的相似性、广度和深度对跨国公司在目标国家经营成败的影响,该研究以进入巴西电信行业投资的外国跨国公司为样本,但跨国公司是否进入巴西投资可能不是随机的,而是有选择的,是根据自身情况是否适合进入巴西以及进入巴西后的绩效预测而决定的。只有当进入巴西后,因变量(经营成败)才可以被观测到。换句话说,没有进入巴西的那部分样本的因变量无法被观测到,而能够被观测到的只是适合进入巴西的那部分样本,从而造成样本选择偏差。

2.5 双向因果关系

双向因果关系是指解释变量与被解释变量互为因果。假设解释变量 $x_i$ 与被解释变量 $y_i$ 满足
$\varepsilon$
由于被解释变量与解释变量互为因果，因此下列方程也满足
$\lambda$
其中技术性条件满足 $Cov(\varepsilon,\lambda) =0$ 。由于
$\begin{aligned} Cov(x,\varepsilon) &= Cov(c +dy + \lambda,\varepsilon) \\ &= Cov(dy + \lambda,\varepsilon)\\ &=dCov(y,\varepsilon)+Cov(\lambda,\varepsilon)\\ &=dCov(y,\varepsilon) \ne0 \end{aligned}$
因此双向因果关系条件下也会产生内生性。

2.6 模型设定偏误

模型设定偏误是指构建的回归模型没有按照理论经验进行构建，或者根据已有的理论构建但因客观原因导致模型与实际情况存在模型结构上的系统性偏差。例如，消费函数中收入的增长快于消费的增长，因此消费与收入应该呈现非线性关系。但是实际中为了简化二者关系，常假定消费是收入的线性函数，从而导致模型存在内生性。例如，研究经济增长与收入分配的关系，构建了如下模型：
$b*gdp+\varepsilon$
但实际上，根据库兹涅茨效应(1955)发现，一国的收入分配(gap)与经济增长(gdp)呈现非线性关系，经济增长初期，效率优先，从而导致差距扩大；随着经济进一步增长，实施兼顾公平或公平优先策略，差距逐渐缩小。因此模型应该加入gdp的二次项以保证gdp对经济增长存在库兹涅茨效应。假设真实模型为
$gap = a + b*gdp+ c*(gdp)^2+e.(c<0)$
因此实际构建的模型的扰动项 $\varepsilon = e+c*(gdp)^2$ 。由于
$Cov(gdp,\varepsilon) = Cov(gdp,e+c*(gdp)^2) = c*Cov(gdp,(gdp)^2)\ne0$
从而产生内生性问题。此外，模型设定偏误也会导致球形扰动项不成立，即可能导致模型出现异方差与自相关问题。

2.7 动态面板偏差

动态面板偏差是指在动态面板模型中存在固有的内生性问题。设动态面板模型为
$y_{it} =\alpha y_{i,t-1}+\boldsymbol X\boldsymbol \beta +u_i+ \varepsilon_{it} \tag{5}$
将上述方程滞后一期得
$y_{i,t-1} =\alpha y_{i,t-2}+\boldsymbol X\boldsymbol \beta +u_i+ \varepsilon_{i,t-1} \tag{6}$
考虑
$Cov(y_{i,t-1}, u_i+\varepsilon_{it}) =Cov(y_{i,t-1},u_i)+Cov(y_{i,t-1}, \varepsilon_{it})$
在(6)中， $u_i$ 是 $y_{i,t-1}$ 的组成部分，故 $Cov(y_{i,t-1},u_i)\ne 0$ 因此动态面板模型(5)也存在系统性的内生性。

3 工具变量

解决模型的内生性问题主要包括如下几种：

通过自然实验(随机试验)
面板数据通过差分或离差消除个体效应
匹配法
工具变量法

本文主要介绍最后一种比较常用的方法。

3.1工具变量的思想

设模型
$bx+\mu$
存在内生性问题，即 $Cov(x,\mu)\ne 0$ 。如果将变量 $x$ 与扰动项 $\mu$ 视为两个集合，由于 $Cov(x,\mu)\ne 0$ ，在图形上可表示为

内生解释变量与扰动项的关系

从图形上看，解释变量与扰动项之间存在交集，即 $\cap \mu = \Delta$ ，因此需要通过某种方法使解释变量分解为两部分：

第一部分是 $\hat x$ ，它满足 $\hat x \cap \mu =\emptyset$ ，也就是 $Cov(\hat x,\mu) =0$
第二部分是 $\Delta$ , 它满足 $\Delta \cap \mu \ne \emptyset$ , 即 $Cov(\Delta,\mu) \ne 0$

但问题是应该用什么手段对存在内生性的解释变量进行分解呢？现引入一个集合 $z$ ，使得

外生性条件： $Cov(z,\mu) = 0$
相关性条件： $Cov(z,x)\ne 0$

即实现上述目的。如果引入的变量 $z$ 与解释变量 $x$ 存在较强的相关关系，说明变量 $z$ 有助于预测或解释解释变量 $x$ ;而变量 $z$ 与扰动项无关，则意味着通过变量 $z$ 对变量 $x$ 的预测值 $\hat x$ 也与扰动项无关。称满足外生性条件与相关性条件的变量 $z$ 为工具变量(IV)。如果将预测值 $\hat x$ 作为解释变量以替代原有解释变量 $x$ ，那就能抑制内生性问题。外生性条件与内生性条件意味着存在如下的因果链：
在这里插入图片描述
相关性意味着工具变量 $z$ 对 $x$ 的造成直接的影响，而外生性意味着工具变量 $z$ 只能通过变量 $x$ 的作用对 $y$ 产生影响。前者为局部影响，后者为总影响(相对整个因果链)。设工具变量 $z$ 对 $x$ 的局部线性影响为 $\pi_1$ ,工具变量 $z$ 对 $y$ 的全局线性影响为 $\pi$ ,则解释变量 $x$ 对变量 $y$ 的影响为 $\pi_2 = \pi/\pi_1$

证：设工具变量 $z$ 对变量 $x$ 的回归模型为
$\pi_1 z + u \tag{7}$
设解释变量 $x$ 对 $y$ 的回归方程为
$\pi_2x + v \tag{8}$
将(7)带入(8)得
$\begin{aligned} y &= b + \pi_2(a + \pi_1 z + u) + v \\ &=(b+a\pi_2)+\pi_1 \pi_2z +(u\pi_2+v) \\ & =\alpha+\pi z +\varepsilon \end{aligned} \tag{9}$
不难看出，工具变量 $z$ 对被解释变量 $y$ 的间接影响为 $\pi =\pi_1 \pi_2$ ，即
$\pi = \frac{Cov(y,z)}{Var(z)}$
而由(7)得
$\pi_1 = \frac{Cov(x,z)}{Var(z)}$
因此在引入工具变量 $z$ 时，解释变量 $x$ 对 $y$ 的影响为
$\pi_2 = \frac{\pi}{\pi_1} = \frac{Cov(y,z)}{Cov(x,z)}$
由相关性条件可知， $\ne0$ ，故 $\pi_2$ 是可识别的。如果 $\approx0$ ，则 $\pi_2 \to \infty$ 不可识别，此时称工具变量 $z$ 为弱工具变量。

3.2 两阶段最小二乘法

为了解决内生性问题，在引入工具变量后利用两步回归可以解决内生性问题，具体步骤如下

先用内生解释变量对工具变量回归，即(7),此时得到 $x$ 的拟合值 $\hat x = a + \pi_1 z$
用被解释变量对拟合值 $\hat x = a + \pi_1 z$ 进行回归

证：由于
$\left\{ \begin{array}{ccc} y = b + \pi_2x + v\\ x = a + \pi_1 z + u \end{array} \right.$
而 $\pi_1 z + u = \hat x +u$ ，其中 $\hat x = a + \pi_1 z$ ， $Cov(\hat x,u) =0$ 。联立方程消除 $x$ 得
$\pi_2(\hat x +u) + v =b+\pi_2\hat x+( \pi_2u+v)$
此时考虑
$\begin{aligned} Cov(\hat x,\pi_2u+v)& = \pi_2Cov(\hat x,u)+Cov(\hat x,u) \\ &= \pi_2Cov(\hat x,u)+Cov(a + \pi_1 z,u)\\ &=0+0=0 \end{aligned}$
因此通过两阶段最小二乘法能够解决内生性问题。下面运用数据grilic举例。其中lw为被解释变量，iq为内生解释变量，med为工具变量。

use grilic.dta
qui reg lw med,noheader r  //使用被解释变量对工具变量回归
est sto m1
qui reg iq med ,noheader r //使用解释变量对工具变量回归
est sto m2
qui ivregress 2sls lw  (iq =med),noheader r  //2sls回归
est sto m3
esttab m1 m2 m3

                                                         /*结果
------------------------------------------------------------
                      (1)             (2)             (3)   
                       lw              iq              lw   
------------------------------------------------------------
med                0.0334***        1.306***                
                    (6.00)          (7.47)                   

iq                                                  0.0256***
                                                     (5.85)   

_cons               5.323***        89.61***        3.033***
                    (84.77)         (44.80)          (6.68)   
------------------------------------------------------------
N                     758             758             758   
------------------------------------------------------------
t statistics in parentheses
* p<0.05, ** p<0.01, *** p<0.001
                                                          */

不难发现0.334/1.306 = 0.0256。

3.3 Wald估计量

设回归模型
$\pi_2 x + u$
其中 $Cov(x,u)\ne0$ ，故变量 $x$ 为内生解释变量。设虚拟变量 $z$ 与扰动项 $u$ 满足 $C o v (z, u) = 0$ ，则工具变量的估计量为
$\hat \pi_2 = \frac{\bar y_1 - \bar y_0}{\bar x_1 - \bar x_0}$
其中 $\bar y_1 = E(y|z=1),\bar y_0 = E(y|z=0),\bar x_1 = E(x|z=1),\bar x_0 = E(x|z=0)$ ，该估计也称Wald估计量。

证明：根据因果链条 $z\to x \to y$ 得到：
$\hat\pi_2 =\frac{\pi}{\pi_1}$
将(7)求条件期望得
$\pi_1 ;E(x|z=0) = a$
从而有
$\pi_1 = E(x|z=1) -E(x|z=0)$
再对(9)求条件期望得
$\alpha + \pi ;E(y|z=0) = \alpha$
从而有
$\pi = E(y|z=1) -E(y|z=0)$
于是
$\hat\pi_2 =\frac{\pi}{\pi_1} =\frac{E(y|z=1) -E(y|z=0)}{ E(x|z=1) -E(x|z=0)} = \frac{\bar y_1 - \bar y_0}{\bar x_1 - \bar x_0}$

4 矩估计

经典线性回归方程中要求
$Cov(\boldsymbol X,\boldsymbol \varepsilon) = E(\boldsymbol X\boldsymbol \varepsilon) -E(\boldsymbol X)E(\boldsymbol \varepsilon)=0$
扰动项期望 $E(\boldsymbol \varepsilon) =0$ ，故 $E(\boldsymbol X\boldsymbol \varepsilon) =0$ 。设多元线性回归方程为
$a_0 +\hat a_1x_1+\hat a_2x_2+\cdots+\hat a_kx_k+e$
因为 $E(\boldsymbol X\boldsymbol \varepsilon) =0$ ，故存在 $k$ 个矩方程使得
$\left\{\begin{array}{ccc} E(x_1e)=0\\ E(x_2e)=0\\ \vdots\\ E(x_ke)=0\\ \end{array}\right. \;\;\;\;\;\;\;\;\;\;\;\;\;\; (10)$
成立，另外 $E (u) = 0$ ，从而可以解出回归系数向量 $\boldsymbol a = [\hat a_0,\cdots\hat a_k]^{\prime}$ 。显然 $\boldsymbol a$ 的解是唯一的，因为存在 $k + 1$ 个未知数与 $k + 1$ 个方程(如果解释变量之间不存在完全相关性)。方程组(10)必须满足每一个解释变量与误差项正交，但现实中，可能出现某些解释变量与误差项存在相关性，即方程组的个数小于未知参数的个数，从而无法识别解释变量对被解释变量的影响。为简化关系，设二元线性回归模型
$y = a + b x + c w + u$
其中 $u$ 为扰动项， $Cov(x,u)\ne0,Cov(w,u) =0$ 。根据条件可得到如下矩方程组
$\left\{\begin{array}{lll} E(wu) = E(w(y-a-bx-cw))=0 \\ E(u)=E(y-a-bx-cw)=0 \end{array}\right.$
显然，两个方程不能得到唯一参数 $a, b, c$ 的值，原因在于第三个矩方程 $E(xu)\ne 0$ 。现引入工具变量 $z$ ，使得 $z$ 满足：

外生性： $C o v (z, u) = 0$
相关性： $\ne 0$

从而得到如下矩方程组
$\left\{\begin{array}{lll} E(wu) = E(w(y-a-bx-cw))=0 \\ E(zu)=E(z(y-a-bx-cw))=0 \\ E(u)=E(y-a-bx-cw)=0 \end{array}\right.$
从而解出参数 $a, b, c$ 的唯一值。下面是更正式的矩估计推导，设多元回归模型
$y_i = \beta_1x_{1i}+\cdots+ \beta_1x_{k-1，i} +\beta_1x_{ki}+\varepsilon_i$
其中只有解释变量 $x_{k}$ 为内生解释变量，即 $Cov(x_{ik},\varepsilon_i)\ne0$ ，其他解释变量均外生(因此可以把 $x_1,x_2\cdots x_{k-1}$ 自身作为自身的工具变量）。为了解决内生性问题，现引入工具变量 $w$ 使得

$Cov(x_{k},w) \ne 0$
$Cov(\varepsilon,w) =0$

记解释变量向量 $\boldsymbol x_i = (x_{i1},\cdots x_{i,k-1},x_{ik})'$ ,回归参数向量 $\boldsymbol \beta = (\beta_1 \cdots\beta_k)'$ ，故回归模型可记作
$y_i =x_i^{\prime} \boldsymbol \beta+\varepsilon_i$
记工具变量向量 $\boldsymbol z = (x_{i1},x_{i2},\cdots x_{i,k-1},w)^{\prime}$ ，并定义
$\boldsymbol g_i = \boldsymbol z_i \varepsilon_i$
从而得到 $E(\boldsymbol g_i ) =E(\boldsymbol z_i \varepsilon_i)= \boldsymbol z_iE( \varepsilon_i)=\boldsymbol 0$ 。于是
$\begin{aligned} E(\boldsymbol z_i \varepsilon_i)&= E(\boldsymbol z_i (y_i -x_i^{\prime} \boldsymbol \beta))=0 \\ &\Rightarrow E(\boldsymbol z_i y_i) =( E(\boldsymbol z_i \boldsymbol x_i^{\prime}))\boldsymbol \beta \\ &\Rightarrow \boldsymbol \beta = [E(\boldsymbol z_i \boldsymbol x_i^{\prime})]^{-1} E(\boldsymbol z_i y_i) \;\;\;\;\;\;\;(假定 [E(\boldsymbol z_i \boldsymbol x_i^{\prime})]^{-1}存在) \end{aligned}$
用样本矩代替总体矩得
$\hat{\boldsymbol \beta}_{IV} =\left(\frac{1}{n} \sum_{i=1}^{n} \boldsymbol z_{i} \boldsymbol x_{i}^{\prime}\right)^{-1}\left(\frac{1}{n} \sum_{i=1}^{n} \boldsymbol z_{i} y_{i}\right)=\left(\boldsymbol Z^{\prime} \boldsymbol X\right)^{-1} \boldsymbol Z y \;\;\;\;\;\;\;\;\;\;\;\;\;\; (11)$
其中 $\boldsymbol Z \equiv\left(z_{1} \cdots z_{n-1} z_{n}\right)^{\prime}$ 。

命题：如果秩条件 $rank(E(\boldsymbol z_i\boldsymbol x_i^{\prime}))=k$ ，则在一定的正则条件 $\hat{\boldsymbol \beta}_{IV}$ 是 $\boldsymbol \beta$ 得一致估计量。并且工具变量估计量 $\hat{\boldsymbol \beta}_{IV}$ 服从渐进正态分布，即
$\sqrt{n} (\hat{\boldsymbol \beta}_{IV}-{\boldsymbol \beta}) \xrightarrow{d}N(\boldsymbol 0,Avar ({\hat{\boldsymbol \beta}_{IV}}))$
其中 $({\hat{\boldsymbol \beta}_{IV}}) = [E(\boldsymbol z_i \boldsymbol x_i^{\prime})]^{-1} \boldsymbol S [E(\boldsymbol z_i \boldsymbol x_i^{\prime})]^{-1}$ ， $\boldsymbol S = E(\varepsilon_i ^2 \boldsymbol z_i \boldsymbol z_i^{\prime})$ 。证明略

5 二阶段最小二乘法

5.1 阶条件

考虑模型
$y = a + bx_1 +cx_2+ dx_3+u$
其中 $a, b, c, d$ 为回归系数， $u$ 为扰动项。

当 $Cov(x_i,u)=0(i=1,2,3)$ 时，可得到四个矩方程

$\left\{\begin{array}{llll} E(x_1u)=0\\ E(x_2u)=0\\ E(x_3u)=0\\ E(u)=0 \end{array}\right.$

即可解出 $a, b, c, d$ 的唯一解；

当 $Cov(x_1,u)\ne0$ ，此时只能得到关于 $a, b, c, d$ 的不定矩方程组，即

$\left\{\begin{array}{ccc} E(x_2u)=0\\ E(x_3u)=0\\ E(u)=0 \end{array}\right.$

此时参数 $a, b, c, d$ 不可唯一识别。注：此时未引入工具变量，工具变量个数为L=0，内生解释变量个数为K= 1。显然 $L < K$

如果引入关于内生变量 $x_1$ 的工具变量 $z_1$ ，且满足
$Cov(z_1,u)=0;Cov(z_1,x_1)\ne0$
则依然可构建四个矩方程组
$\left\{\begin{array}{llll} E(z_1u)=0\\ E(x_2u)=0\\ E(x_3u)=0\\ E(u)=0 \end{array}\right.$
从而解出唯一参数 $a, b, c, d$ 的值。注：此时引入工具变量，工具变量个数为L=1,内生解释变量个数为K=1。显然 $L = K$

当 $Cov(x_1,u)\ne0$ 且 $Cov(x_2,u)\ne0$ ，此时内生解释变量为 $x_1,x_2$ ，于是对应的矩方程只有两个

$\left\{\begin{array}{ll} E(x_3u)=0\\ E(u)=0 \end{array}\right.$

显然，两个方程不能唯一解出方程组的四个参数。如果分别引入 $x_1,x_2$ 的工具变量 $z_1,z_2$ ，且满足
$Cov(z_1,u)=0;Cov(z_1,x_1)\ne0；Cov(z_2,u)=0;Cov(z_2,x_2)\ne0$
则依然可构建四个矩方程组
$\left\{\begin{array}{llll} E(z_1u)=0\\ E(z_2u)=0\\ E(x_3u)=0\\ E(u)=0 \end{array}\right.$
从而解出唯一参数 $a, b, c, d$ 的值。注：工具变量个数为L=2,内生解释变量个数为K=2。显然 $L = K$

当 $Cov(x_1,u)\ne0$ 且 $Cov(x_2,u)\ne0$ ，此时内生解释变量为 $x_1,x_2$ ，于是对应的矩方程只有两个

$\left\{\begin{array}{ll} E(x_3u)=0\\ E(u)=0 \end{array}\right.$

显然两个方程不能唯一解出方程组的四个参数。如果 $x_1$ 的工具变量为 $z_1$ ，但 $x_2$ 的工具变量有两个 $z_{21},z_{22}$ ，且满足
$\left\{\begin{array}{llll} Cov(z_1,u)=0;Cov(z_1,x_1)\ne0\\ Cov(z_{21},u)=0;Cov(z_{21},x_2)\ne0\\ Cov(z_{22},u)=0;Cov(z_{22},x_2)\ne0\\ \end{array}\right.$
对应的矩方程组为
$\left\{\begin{array}{llll} E(z_1u)=0\\ E(z_{21}u)=0\\ E(z_{22}u)=0\\ E(x_3u)=0\\ E(u)=0 \end{array}\right.$
此时共有5个矩方程，但未知参数只有四个，称这类情形为“过度识别”。注意此时工具变量个数L=3,内生解释比那辆个数为K= 2。显然 $L > K$ 。从以上三种情况可以归纳出阶条件：

A: 如果内生解释变量个数大于工具变量变量个数，则模型参数不可识别；
B: 如果内生解释变量个数等于工具变量变量个数，则模型参数恰好识别；
C: 如果内生解释变量个数小于工具变量变量个数，则模型参数过度识别；

因此，要让模型参数能识别出来，工具变量个数至少大于内生解释变量个数。

5.2 球形扰动假定条件下的 2SLS

通过以上的方法只能求出恰好识别的情形，并不适用于过度识别情形，因为(11)式的 $Z^{\prime} \boldsymbol X$ 不是方阵，故 $(Z^{\prime} \boldsymbol X)^{-1}$ 不存在。下面介绍过度识别的情况。

即使工具变量个数存在多个，但它依然满足工具变量的条件，即外生性与相关性。由此看来，如果将较多的工具变量通过某种线性组合(降维）也会回到恰好识别的情形。已经证明，在球形扰动项的条件下，由二阶段最小二乘法所提供的工具变量线性组合是所有线性组合中最渐进有效的。之所以要假定球形扰动项成立，是因为该方法没有考虑到模型可存在的异方差与自相关问题。下面介绍球形扰动假定条件下的2SLS具体步骤：

step1:分离出内生变量的外生部分。

将解释变量 $x_1,x_2,\cdots x_k$ 对所有 $L$ 个工具变量 $z_1,z_2,\cdots z_L$ 作OLS回归，得到 $k$ 个拟合值
$\hat x_1 = \boldsymbol Px_1,\hat x_2 = \boldsymbol Px_2,\cdots \hat x_k = \boldsymbol Px_k,$
其中 $\boldsymbol P = \boldsymbol Z(\boldsymbol Z' \boldsymbol Z)^{-1}\boldsymbol Z'$ 为投影矩阵，参见多元回归分析内容。定义
$\hat{\boldsymbol{X}} \equiv\left(\hat{\boldsymbol{x}}_{1} \hat{\boldsymbol{x}}_{2} \cdots \hat{\boldsymbol{x}}_{k}\right)=\boldsymbol{P}\left(\boldsymbol{x}_{1} \boldsymbol{x}_{2} \cdots \boldsymbol{x}_{k}\right)=\boldsymbol{P} \boldsymbol{X}=\boldsymbol{Z}\left[\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right] \;\;\;\;\;\;\;\;\;\;\;\;\;\; (12)$
step2:使用外生部分进行回归。

由于 $\hat{\boldsymbol{X}}$ 是工具变量 $z_1,z_2,\cdots z_L$ 的线性组合，故 $\hat{\boldsymbol{X}}$ 也包含了 $k$ 个工具变量。此时工具变量个数等于内生解释变量个数，即处于恰好识别情形。现将外生解释变量 $\hat{\boldsymbol{X}}$ 替换内生解释变量 ${\boldsymbol{X}}$
$\boldsymbol y = \boldsymbol \beta \boldsymbol X+\boldsymbol \varepsilon$
并进行OLS回归，得到工具变量估计量
$\hat{\boldsymbol \beta}_{\mathrm{IV}}=(\hat{\boldsymbol{X}} \boldsymbol{X})^{-1} \hat{\boldsymbol{X}}^{\prime} \boldsymbol{y}=(\hat{\boldsymbol{X}} \hat{\boldsymbol{X}})^{-1} \hat{\boldsymbol{X}}^{\prime} \boldsymbol{y} \;\;\;\;\;\;\;\;\;\;\;\;\;\; (13)$
这里 $\hat{\boldsymbol{X}}^{\prime} \hat{\boldsymbol{X}}=(\boldsymbol{P X})^{\prime}(\boldsymbol{P X})=\boldsymbol{X}^{\prime} \boldsymbol{P}^{\prime} \boldsymbol{P} \boldsymbol{X}=\boldsymbol{X}^{\prime} \boldsymbol{P}^{\prime} \boldsymbol{X}=\hat{\boldsymbol{X}} \boldsymbol{X}$ ，且投影矩阵 $\boldsymbol P$ 为等幂矩阵，即 $\boldsymbol P' =\boldsymbol P;\boldsymbol P^{2}=\boldsymbol P$ 。将(12)带入(13)得
$\hat{\boldsymbol \beta}_{2 \mathrm{SLS}}=\left(\boldsymbol X^{\prime}\boldsymbol P \boldsymbol X\right)^{-1} \boldsymbol X^{\prime} \boldsymbol P\boldsymbol y=\left[\boldsymbol X^{\prime} \boldsymbol Z\left(\boldsymbol Z^{\prime} \boldsymbol Z\right)^{-1}\boldsymbol Z^{\prime} \boldsymbol X\right]^{-1}\boldsymbol X^{\prime}\boldsymbol Z\left(\boldsymbol Z^{\prime} \boldsymbol Z\right)^{-1} \boldsymbol Z^{\prime} \boldsymbol y$
在同方差假定下， $\hat{\boldsymbol \beta}_{\mathrm{IV}}$ 的协方差估计量为
$\operatorname{Var}\left(\hat{\boldsymbol{\beta}}_{\mathrm{IV}}\right)=s^{2}\left(\hat{\boldsymbol{X}}^{\prime} \hat{\boldsymbol{X}}\right)^{-1}$
其中 $s^{2} \equiv e^{\prime} e/(n-K)$ 。在异方差假定下，可使用稳健标准误
$\operatorname{Var}\left(\hat{\boldsymbol{\beta}}_{\mathrm{IV}}\right)=\left(\hat{\boldsymbol{X}}^{\prime} \hat{\boldsymbol{X}}\right)^{-1}\left(\sum_{i=1}^{n} e_{i}^{2} \hat{\boldsymbol{x}}_{i} \hat{\boldsymbol{x}}_{i}^{\prime}\right)(\hat{\boldsymbol{X}} \hat{\boldsymbol{X}})^{-1}$

6 关于工具变量的检验

首先应该判断该模是否存在内生性问题，若模型不存在内生性，就没有必要使用工具变量进行估计；若在没有内生性问题条件下使用了工具变量估计，根据两阶段最小二乘法原理，第一阶段回归的外生部分与原有的解释变量相比将损失部分信息，而这部分信息的损失降低回归结果的有效性。

其次，若存在内生性问题，应判断工具变量是否为过度识别情形。当工具变量个数等于内生解释变量个数时，即恰好识别情形，此时无法进行过度识别检验；当工具变量个数大于内生解释变量个数时，需要检验工具变量的有效性，即是否存在工具变量不具有外生性。

最后，如果运用了工具变量法估计，还需要对工具变量进行弱工具变量检验，即内生解释变量与工具变量之间的相关性是否较低。若存在弱工具变量，可以通过其他方法进行弥补。

6.1 内生性检验

方法一：当使用工具变量变量估计与使用OLS估计的回归系数相差不大，则意味着二者在大样本条件下， $\hat{\boldsymbol \beta}_{IV}$ 与 $\hat{\boldsymbol \beta}_{OLS}$ 都会收敛到真实的参数 $\boldsymbol \beta$ 。相反，若 $\hat{\boldsymbol \beta}_{IV}$ 与 $\hat{\boldsymbol \beta}_{OLS}$ 相差较大，则说明使用工具变量与不适用工具变量存在显著差异，表明模型存在内生性问题。Hausman检验的原假设为
$H_0:所有解释变量都是外生的\;\;\;or \;\;\; \hat{\boldsymbol \beta}_{IV} - \hat{\boldsymbol \beta}_{OLS} \to \boldsymbol 0$
如拒绝原假设，则模型存在内生性，

方法二：为简化关系设回归模型为
$y = a_0 + a_1x_1 + a_2x_2 +a_3x_3+u \;\;\;\;\;\;\;\;\;\;\;\;\;\; (14)$
其中 $x_1$ 为内生解释变量，其余变量外生。变量 $x_1$ 的工具变量有 $z_1,z_2$ 。因此可以先将内生解释变量分离出外生部分，即
$x_1 = b_0 + b_1z_1 + b_2z_2+b_3x_2 + b_4x_3+v = \hat x_1 +v$
由于 $Cov(x_1,u)\ne 0$ , $\hat x_1$ 是 $x_1$ 的外生部分，故 $Cov(v,u)\ne0$ 。因此要检验变量 $x_1$ 是否存在内生性，只要需要检验扰动项 $u$ 与 $v$ 是否存在相关性即可。假设二者的相关性满足
$\rho v+e$
带入(14)得
$a_0 + a_1x_1 + a_2x_2 +a_3x_3+\rho v+e$
此时只需检验回归系数 $\rho$ 是否为0，若是，则表明模型不存在内生性，反之存在。

6.2 过度识别(冗余)检验

过度识别检验的原假设为
$H_0:所有的工具变量与误差项不相关$
操作步骤为

step1:对方程做2SLS估计，得到残差项
step2:用残差对所有工具变量(包括模型中的外生解释变量)作回归，得到可决系数 $R^2$
step3:在原假设 $H_0$ 成立条件下
$nR^2 \sim \chi_q^2(n)$
其中 $n$ 表示多余的工具变量个数。当处于恰好识别时，此时 $n = 0$ ，而 $\chi_q^2(0)$ 无意义，因此恰好识别情形无法进行过度识别检验。

6.3 弱工具变量检验

考虑一元线性回归模型，通过OLS与IV估计，在大样本条件下，
$\left\{ \begin{array}{l} \operatorname{plim} \hat{\beta}_{1, o l s}=\beta_{1}+\operatorname{corr}(x, u) \frac{\sigma_{u}}{\sigma_{x}} \\ \\ \operatorname{plim} \hat{\beta}_{1, i v}=\beta_{1}+\frac{\operatorname{corr}(z, u)}{\operatorname{corr}(z, x)} \frac{\sigma_{u}}{\sigma_{x}} \end{array} \right.$

如果工具变量 $z$ 完全具有外生性，即 $C o r r (z, u) = 0$ ，此时工具变量估计量 $\hat{\beta}_{1, i v}$ 是一致的，不存在偏差；
如果工具变量 $z$ 不完全具有外生性，即 $\ne0$ ，并且内生解释变量与工具变量之间存在较弱的相关关系，那么Iv估计量的偏差可能要大于OLS估计量的偏差。

因此检验工具变量是否是弱工具变量至关重要，因为它直接影响到参数估计的一致性。

6.31 弱工具变量的识别方法

目前识别弱工具变量的方法主要有以下几种：

使用偏 $R^2$ 。具体操作步骤如下：
step1:用内生解释变量对外生解释变量进行OLS回归，其残差记作 $u$ 它表示不能由外生解释变量解释内生解释变量的信息；
step2:用工具变量变量对外生解释变量进行OLS回归，其残差记作 $v$ ,它表示不能由外生解释变量解释工具变量的信息；
step3:用残差 $u$ 对残差 $v$ 进行OLS回归，其可决系数记作 $R_p^2$ 。如果 $R_p^2$ 较大，则内生解释变量与工具变量存在较强的相关性。

事实上，计算出的 $R_p^2$ 究竟是多大才不构成弱工具变量目前尚无共识。

经验规则（Staiger and Stock, 1997）：第一阶段工具变量显著性检验的𝐹统计量应大于10：如果在多个内生解释变量情况下，将会存在多个第一阶段回归，对应多个F统计量。（Staiger and Stock, 2005）提出“最小特征统计值”，stata提供了最小特征统计值的临界值。通过特征值与临界值进行比较以判定弱工具变量问题。SY(Stock and Yogo )统计量为第一阶段中对工具变量显著性检验的𝐹统计量，但临界值不同于𝐹分布的临界值。临界值取决于内生变量的个数和工具变量的个数。
如果假设扰动项为iid，可使用“Cragg-Donald Wald F统计量”(Cragg and Donald, 1993)，其临界值由Stock and Yogo (2005 ）提供。
如果不作iid 扰动项的假设，则应使用“Kleibergen-Paap Wald rk F 统计量”，其临界值也来自Stock and Yogo (2005)。

6.32 弱工具变量的处理方法

减少工具变量的个数。工具变量越多，对第一阶段的𝐹统计量要求越高
寻找更强的工具变量
采用有限信息极大似然估计（LIML）。LIML对估计和推断偏差没有2SLS敏感。
使用冗余检验，剔除弱工具变量。

7 如何寻找工具变量

根据理论，列出所有与内生解释变量相关的变量的清单
从清单中剔除与扰动项相关的变量，工具变量具必须具有外生性

相关政策或制度、外生的冲击，比如自然灾害、意外事件等；
地理因很大程度上具有独立性；
历史变量也先于当前的经济指标生成。
最后一个常用的方法是将内生解释变量的时间(空间)滞后作为工具变量。

考虑模型
$y_t = a + b x_t +u_t$
由于 $x_t$ 存在内生性，故 $Cov(x_t,u_t) \ne 0$ 。 $x_{t-1}$ 先于 $u_t$ ，且 $Cov(x_t,x_{t-1})\ne0$ ，因此内生解释变量的滞后其可能是一个工具变量。

参考文献：