内生性问题—广义矩估计

泥壶映雪

已于 2022-06-23 19:11:41 修改

阅读量4k

点赞数 3

分类专栏：计量经济学文章标签：线性代数矩阵概率论

于 2021-06-21 12:07:53 首次发布

本文链接：https://blog.csdn.net/weixin_46649908/article/details/118083919

版权

计量经济学专栏收录该内容

37 篇文章

订阅专栏

文章目录

1 GMM引入

线性回归模型满足如下线性形式
$y_i = \boldsymbol x_i^{\prime}\boldsymbol \beta + \varepsilon_i$
若解释变量与随机扰动项满足 $Cov(x_{ik},\varepsilon_i)\ne 0$ ，则表明解释变量 $x_{ik}$ 具有内生性，或 $x_{ik}$ 为内生解释变量。这里 $i, k$ 分别为观测次数与自变量标识。解决上述问题的常用方法时寻找一个工具变量 $z$ ，使得满足以下两个条件：
$\left\{\begin{array}{l} Cov(x,z)\ne 0\\ Cov(z,\varepsilon)=0\\ \end{array}\right.$
第一个条件称为相关性，即工具变量与内生解释变量具有相关性（相关性越强越好）；第二个条件为排斥性，即工具变量与扰动项不存在相关性。利用两阶段最小二乘法方法（2SLS）进行估计可得到一致估计量，具体思想为：通过内生解释变量对工具变量进行回归，将内生解释变量分解为不与随机扰动项相关的外生解释变量部分，与扰动项相关的内生部分；由于外生解释变量部分是关于工具变量的线性函数，因此用外生解释变量部分代替原解释变量进行回归，从而得到一致的估计量。当然，如果第一个条件，即相关性越强，则分解后的外生解释变量包含原始解释变量的信息越多，从而提高估计效率；相反，若相关性较弱，则外生解释变量包含原始变量的信息越少，估计效率大大下降。因此，需要寻找更多的工具变量，利用内生解释变量对这些工具变量进行回归，则分离后的外生解释变量包含原始内生解释变量的信息越多，估计效率越高。通过比较内生解释变量与工具变量的个数，

若内生解释变量个数 > 外生解释变量个数，则待估参数不可识别（矩条件（方程）个数少于参数个数）
若内生解释变量个数 = 外生解释变量个数，则待估参数恰好识别（矩条件（方程）个数等于参数个数）
若内生解释变量个数 < 外生解释变量个数，则待估参数过度识别（矩条件（方程）个数大于参数个数）

第一个情况无法估计参数，第二种情况刚好能找到一组参数解，第三种情况存在无数组解。第二种情况虽然能识别参数，但每个内生解释变量都对应一个外生变量，分解的出外生解释变量不一定足够包含内生解释变量的大部分信息；第三种情况虽然有更多的工具变量，但估计参数存在无穷组解。一种方法是将多个工具变量线性组合为一个工具变量，此时回到恰好识别情形。线性组合也包括无穷种，根据已有证明，在球形扰动假设条件下，2SLS提供的工具变量的线性组合是最有效率的。2SLS尽管能解决过度识别情形，但却是在球形扰动条件下成立，即扰动项方程协方差矩阵不存在自相关以及同方差假设。为为了能在非球型扰动假设条件下实现过度识别情形的估计，需要引入GMM估计方法。GMM与2SLS关系就如同GLS与与OLS的关系；因为前者都不受到球形扰动假设约束，后者皆在球形扰动假设下成立。

2 GMM假定

2.1 线性假设

线性回归模型满足如下线性形式
$y_i = \boldsymbol x_i^{\prime}\boldsymbol \beta + \varepsilon_i$
其中 $\boldsymbol x_i = (x_{i1},x_{i1},\dots x_{ik})'$ 为第 $i$ 次观测。

2.2 渐进独立平稳

被解释变量 $y_i$ 、解释变量 $\boldsymbol x _i$ 与工具变量 $\boldsymbol z_i$ （维度是 $L$ ）构成的随机过程 $\boldsymbol w_i =unique \{y_i,\boldsymbol x _i,\boldsymbol z_i\}$ 为渐进独立平稳过程；其中unique表示这些变量不存在重叠。

2.3 工具变量正交性

既然是工具变量，至少需要符号前定变量条件，即工具变量与同期扰动项不相关；设 $L$ 维向量 $\boldsymbol g_i = \boldsymbol z_i \varepsilon_i$ ，其期望为 $E(\boldsymbol g_i) = E(\boldsymbol z_i \varepsilon_i)=0$

2.4 满秩条件

矩阵 $E(\boldsymbol z_i \boldsymbol x_i')$ 列满秩，即 $rank(E(\boldsymbol z_i \boldsymbol x_i')) =K$ 这里 $L > K$ ,并记 $\boldsymbol{\Sigma}_{Z X} \equiv \mathrm{E}\left(z_{i} \boldsymbol{x}_{i}^{\prime}\right)$

2.5 鞅差分序列

$\boldsymbol g_i$ 为鞅差分序列，其协方差矩阵
$\boldsymbol{S} \equiv \mathrm{E}\left(\boldsymbol{g}_{i} \boldsymbol{g}_{i}^{\prime}\right)=\mathrm{E}\left(\varepsilon_{i}^{2} \boldsymbol{z}_{i} z_{i}^{\prime}\right)$
可逆

2.6 四阶矩条件

关于解释变量 $x$ 的四阶矩条件 $\mathrm{E}\left[\left(x_{i k} z_{i j}\right)^{2}\right]$ 存在其有限， $\forall i,j,k$

3 GMM推导

设总体矩条件
$\mathrm{E}\left(\boldsymbol{g}_{i}\right)=\mathrm{E}\left(z_{i} \varepsilon_{i}\right)=\mathbf{0}$
的样本矩条件
$\boldsymbol{g}_{n}(\hat{\boldsymbol{\beta}}) \equiv \frac{1}{n} \sum_{i=1}^{n} z_{i}\left(y_{i}-\boldsymbol{x}_{i}^{\prime} \hat{\boldsymbol{\beta}}\right)=\mathbf{0}$
其中 $\boldsymbol z_i$ 的维度为 $L$ ，参数 $\hat {\boldsymbol \beta}$ 的维度为 $K$ ,这里工具变量个数大于内生解释变量个数，即 $L > K$ 。此时无法找到唯一解 $\boldsymbol{\hat\beta}$ ，使得 $\boldsymbol{g}_{n}(\hat{\boldsymbol{\beta}}) =0$ 成立。我们将 $\boldsymbol{g}_{n}(\hat{\boldsymbol{\beta}})$ 转为二次型：如果存在解 $\boldsymbol{\hat\beta}$ 使得 $\boldsymbol{g}_{n}(\hat{\boldsymbol{\beta}})$ 无限接近0，则二次型
$\left(\boldsymbol{g}_{n}(\hat{\boldsymbol{\beta}})\right)^{\prime}_{1 \times L}\left(\boldsymbol{g}_{n}(\hat{\boldsymbol{\beta}})\right)_{L \times 1} \to 0$
二次型还需要一个依赖于样本的随机正定对称矩阵 $\hat W_{L \times L}$ ，且在大样本条件下， $\lim_{n\to \infty} \hat{W} =W$ , $W$ 为非随机的对称正定矩阵。定义最小化目标函数
$\min _{\hat{\beta}} J(\hat{\boldsymbol{\beta}}, \hat{\boldsymbol{W}}) \equiv n\left(\boldsymbol{g}_{n}(\hat{\boldsymbol{\beta}})\right)^{\prime} \hat{\boldsymbol{W}}\left(\boldsymbol{g}_{n}(\hat{\boldsymbol{\beta}})\right)$
其中目标函数一定大于0，而 $n$ 是为了方便统计计算，不影响最小值点；定义 $G M M$ 估计量为该问题的最优解，则
$\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}}) \equiv \underset{\hat{\boldsymbol{\beta}}}{\operatorname{argmin}} J(\hat{\boldsymbol{\beta}}, \hat{\boldsymbol{W}})$
显然 $\boldsymbol {\hat \beta}$ 是关于权重矩阵 $\hat W$ 的函数，因此选择不同 $W$ 对 $\boldsymbol {\hat \beta}$ 的估计效率也存在差异。 $\hat W$ 的作用是对 $L$ 个矩条件进行赋权，不同矩条件的强弱不同，则对应的方差较小（矩阵 $\boldsymbol{S}=\mathrm{E}\left(\boldsymbol{g}_{i} \boldsymbol{g}_{i}^{\prime}\right)$ 对角线元素），此时应在 $\hat W$ 种赋予更大的权重。当然最简单的方法将 $\hat W$ 视为单位阵，即不同矩条件的影响相同。下面是 $G M M$ 估计量推导过程：记 $\boldsymbol{S}_{\mathrm{ZX}} \equiv \frac{1}{n} \sum_{i=1}^{n} \boldsymbol{z}_{i} \boldsymbol{x}_{i}^{\prime}, \quad \boldsymbol{S}_{Z y} \equiv \frac{1}{n} \sum_{i=1}^{n} \boldsymbol{z}_{i} y_{i}$ ，则最小化目标函数,
$\begin{aligned} J(\hat{\boldsymbol{\beta}}, \hat{\boldsymbol{W}})&=n\left(\boldsymbol{S}_{Zy}-\boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}}\right)^{\prime} \hat{\boldsymbol{W}}\left(\boldsymbol{S}_{Zy}-\boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}}\right)=n\left(\boldsymbol{S}_{\mathrm{Zy}}^{\prime}-\hat{\boldsymbol{\beta}}^{\prime} \boldsymbol{S}_{Z X}^{\prime}\right) \hat{\boldsymbol{W}}\left(\boldsymbol{S}_{Zy}-\boldsymbol{S}_{ZX} \hat{\boldsymbol{\beta}}\right)\\ &=n\left(\boldsymbol{S}_{\mathrm{Zy}}^{\prime} \hat{\boldsymbol{W}}-\hat{\boldsymbol{\beta}}^{\prime} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}}\right)\left(\boldsymbol{S}_{\mathrm{Zy}}-\boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}}\right)\\ & =n\left(\boldsymbol{S}_{Zy}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Zy}-\hat{\boldsymbol{\beta}}^{\prime} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Zy}-\boldsymbol{S}_{Zy}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}}+\hat{\boldsymbol{\beta}}^{\prime} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}}\right)\\ & = n\left(\boldsymbol{S}_{Z y}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Zy}-2 \hat{\boldsymbol{\beta}}^{\prime} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Zy}+\hat{\boldsymbol{\beta}}^{\prime} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}}\right) \end{aligned}$
其中
$\left(\hat{\boldsymbol{\beta}}^{\prime} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Zy}\right)^{\prime}=\boldsymbol{S}_{xy}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}}$
对向量 $\boldsymbol {\hat \beta}$ 求微分得
$\frac{\partial J(\hat{\boldsymbol{\beta}}, \hat{\boldsymbol{W}})}{\partial \hat{\boldsymbol{\beta}}}=n\left(-2 \boldsymbol{S}_{ZX}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Zy}+2 \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}}\right)=0$
整理
$\boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}}=\boldsymbol{S}_{z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Zy}$
根据假定2.4以及 $\hat{W}$ 正定对称，解得
$\hat{\boldsymbol{\beta}}_{GMM}(\hat{\boldsymbol{W}})=\left(\boldsymbol{S}_{ZX}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{ZX}\right)^{-1} \boldsymbol{S}_{ZX}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Zy}$
在大样本条件下 $\left(\boldsymbol{S}_{ZX}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{ZX}\right)^{-1}$ 满秩。在恰好识别 $\boldsymbol{S}_{\mathrm{ZX}}$ 为 $\times K$ 维仿阵，可逆则
$\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}})=\boldsymbol{S}_{Z X}^{-1} \underbrace{\hat{\boldsymbol{W}}^{-1} \boldsymbol{S}_{\mathrm{ZX}}^{\prime-1} \boldsymbol{S}_{\mathrm{ZX}}^{\prime} \hat{\boldsymbol{W}}}_{=\boldsymbol{I}} \boldsymbol{S}_{Z_{y}}=\boldsymbol{S}_{Z X}^{-1} \boldsymbol{S}_{Z y}=\hat{\boldsymbol{\beta}}_{\mathrm{IV}}$
即在恰好识别条件下， $G M M$ 估计量与 $I V$ 估计量等价。因此只有在过度识别条件下，才能用 $G M M$ 方法

4 大样本性质

4.1 一致性

在大样本条件下，GMM估计量
$\operatorname{plim}_{n \rightarrow \infty} \hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}})=\boldsymbol{\beta}$
收敛于总体回归参数 $\boldsymbol \beta$ 。证明如下： $\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}})$ 的抽样误差为
$\begin{aligned} \hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}})-\boldsymbol{\beta} &=\left(\boldsymbol{S}_{\mathrm{ZX}}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{\mathrm{ZX}}\right)^{-1} \boldsymbol{S}_{\mathrm{ZX}}^{\prime} \hat{\boldsymbol{W}}\left(\frac{1}{n} \sum_{i=1}^{n} z_{i} y_{i}\right)-\boldsymbol{\beta} \\ &=\left(\boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X}\right)^{-1} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}}\left(\frac{1}{n} \sum_{i=1}^{n} z_{i}\left(\boldsymbol{x}_{i}^{\prime} \boldsymbol{\beta}+\varepsilon_{i}\right)\right)-\boldsymbol{\beta} \\ &=\left(\boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X}\right)^{-1} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}}\left(\boldsymbol{S}_{\mathrm{ZX}} \boldsymbol{\beta}+\frac{1}{n} \sum_{i=1}^{n} z_{i} \varepsilon_{i}\right)-\boldsymbol{\beta} \\ &=\left(\boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X}\right)^{-1} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \overline{\boldsymbol{g}} \end{aligned}$
其中 $\overline{\boldsymbol{g}} \equiv \frac{1}{n} \sum_{i=1}^{n} \boldsymbol{g}_{i}, \boldsymbol{g}_{i} \equiv \boldsymbol{z}_{i} \varepsilon_{i}$ ； $\left(\boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X}\right)^{-1} \stackrel{p}{\longrightarrow}\left(\boldsymbol{\Sigma}_{Z X}^{\prime} \boldsymbol{W} \boldsymbol{\Sigma}_{Z X}\right)^{-1}$ ； $\boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \stackrel{p}{\longrightarrow} \boldsymbol{\Sigma}_{Z X}^{\prime} \boldsymbol{W}$ ； $\overline{\boldsymbol{g}} \stackrel{p}{\longrightarrow} \mathrm{E}\left(\boldsymbol{g}_{i}\right)=\mathrm{E}\left(\boldsymbol{z}_{i} \varepsilon_{i}\right)=\mathbf{0}$ ；故
$\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}})-\boldsymbol{\beta} \stackrel{p}{\longrightarrow} \mathbf{0}$

4.2 渐进正态性

在假定2.5（鞅差分序列假定）条件下，
$\sqrt{n}\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}-\boldsymbol{\beta}\right) \stackrel{d}{\longrightarrow} N\left(\mathbf{0}, \operatorname{Avar}\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}\right)\right)$
其中
$\operatorname{Avar}\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}\right)=\left(\Sigma_{Z X}^{\prime} \boldsymbol{W} \boldsymbol{\Sigma}_{Z X}^{\prime}\right)^{-1} \boldsymbol{\Sigma}_{Z X} \boldsymbol{W} \boldsymbol{S} \boldsymbol{W} \boldsymbol{\Sigma}_{\mathrm{ZX}}\left(\boldsymbol{\Sigma}_{Z X}^{\prime} \boldsymbol{W} \boldsymbol{\Sigma}_{\mathrm{ZX}}\right)^{-1}$

$\boldsymbol{S}=\mathrm{E}\left(\boldsymbol{g}_{i} \boldsymbol{g}_{i}^{\prime}\right)=\mathrm{E}\left(\varepsilon_{i}^{2} \boldsymbol{z}_{i} \boldsymbol z_{i}^{\prime}\right), \quad \boldsymbol{\Sigma}_{Z X} \equiv \mathrm{E}\left(\boldsymbol z_{i} \boldsymbol{x}_{i}^{\prime}\right)$

证明如下：抽样误差、
$\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}})-\boldsymbol{\beta}=\left(\boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X}\right)^{-1} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \overline{\boldsymbol{g}}$
故
$\sqrt{n}\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}})-\boldsymbol{\beta}\right)=\left(\boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X}\right)^{-1} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}}(\sqrt{n} \overline{\boldsymbol{g}})$
在假定2.5，利用中心极限定理
$\sqrt{n} \overline{\boldsymbol{g}} \stackrel{d}{\longrightarrow} N(\mathbf{0}, \boldsymbol{S})$
这里 $\boldsymbol{S} \equiv \mathrm{E}\left(\boldsymbol{g}_{i} \boldsymbol{g}_{i}^{\prime}\right)=\mathrm{E}\left(\varepsilon_{i}^{2} \boldsymbol{z}_{i} \boldsymbol{z}_{i}^{\prime}\right)$ ；于是
$\sqrt{n}\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}})-\boldsymbol{\beta}\right)\stackrel{d}{\longrightarrow} N\left(\mathbf{0}, \operatorname{Avar}\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}\right)\right)$
由于 $\left(\boldsymbol{S}_{\mathrm{ZX}}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X}\right)^{-1} \stackrel{p}{\longrightarrow}\left(\boldsymbol{\Sigma}_{Z X}^{\prime} \boldsymbol{W} \boldsymbol{\Sigma}_{Z X}\right)^{-1}$ ； $\boldsymbol{S}_{Z X}^{\prime} \hat{W} \stackrel{p}{\longrightarrow} \Sigma_{Z X}^{\prime} \boldsymbol{W}$ ；故
$\operatorname{Avar}\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}\right)=\left(\Sigma_{Z X}^{\prime} \boldsymbol{W} \boldsymbol{\Sigma}_{Z X}\right)^{-1} \boldsymbol{\Sigma}_{Z X}^{\prime} \boldsymbol{W} \boldsymbol{S} \boldsymbol{W} \boldsymbol{\Sigma}_{Z X}\left(\boldsymbol{\Sigma}_{Z X}^{\prime} \boldsymbol{W} \boldsymbol{\Sigma}_{Z X}\right)^{-1}$
为夹心估计量。

5 最优权重矩阵与估计

在假定2.1，2.2与2.6条件下，对于 $\boldsymbol \beta$ 的任意一致估计量 $\boldsymbol{ \hat \beta}$ ，其残差为 $e_{i} \equiv y_{i}-\boldsymbol{x}_{i}^{\prime} \hat{\boldsymbol{\beta}}$ ；则 $s^{2} \equiv \frac{1}{n} \sum_{i=1}^{n} e_{i}^{2}$ 是总体回归函数随机扰动项方差 $\sigma^{2} \equiv \mathrm{E}\left(\varepsilon_{i}^{2}\right)$ 的一致估计量；且 $\hat{S} \equiv \frac{1}{n} \sum_{i=1}^{n} e_{i}^{2} z_{i} z_{i}^{\prime}$ 也是 $\boldsymbol{S} \equiv \mathrm{E}\left(\varepsilon_{i}^{2} z_{i} z_{i}^{\prime}\right)$ 的一致估计量。经证明，使 $\operatorname{Avar}\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}\right)$ 最小化的最优权重矩阵即为
$\hat{\boldsymbol{W}}=\hat{\boldsymbol{S}}^{-1}$
为了得到最优权重矩阵，需要得到关于 $\boldsymbol \beta$ 的一致估计量。显然两阶段最小二乘法（2SLS）能得到参数一致估计量（尽管可能不是最优效率的）；并计算残差估计权重矩阵
$\hat{\boldsymbol{W}} = \hat{\boldsymbol{S}}^{-1} \equiv (\frac{1}{n} \sum_{i=1}^{n} e_{i}^{2} \boldsymbol{z}_{i} \boldsymbol{z}_{i}^{\prime})^{-1}$
将 $\hat{\boldsymbol{W}}$ 代入目标函数最小化 $J\left(\hat{\boldsymbol{\beta}}, \hat{\boldsymbol{S}}^{-1}\right)$ ，即可得到 $\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}\left(\hat{\boldsymbol{S}}^{-1}\right)$ 。上述方法称为两步GMM;另一种方法在两步GMM基础上得到的样本残差再次作为权重矩阵 $\hat{\boldsymbol{W}}$ 的估计量，最小化目标函数 $J\left(\hat{\boldsymbol{\beta}}, \hat{\boldsymbol{S}}^{-1}\right)$ 直至参数收敛为止。

6 同方差情形

GMM估计适合非球形扰动假设（异方差与自相关）情形，对于同方差情形 $\mathrm{E}\left(\varepsilon_{i}^{2} \mid \boldsymbol z_{i}\right)=\sigma^{2}>0$ ，利用迭代期望公式
$\boldsymbol{S} \equiv \mathrm{E}\left(\boldsymbol z_{i} \boldsymbol z_{i}^{\prime} \boldsymbol \varepsilon_{i}^{2}\right)=\mathrm{E}_{\boldsymbol z_{i}} \mathrm{E}\left(\boldsymbol z_{i} \boldsymbol z_{i}^{\prime} \boldsymbol \varepsilon_{i}^{2} \mid \boldsymbol z_{i}\right)=\mathrm{E}_{\boldsymbol z_{i}}\left[\boldsymbol z_{i} \boldsymbol z_{i}^{\prime} \mathrm{E}\left(\boldsymbol \varepsilon_{i}^{2} \mid \boldsymbol z_{i}\right)\right]=\sigma^{2} \mathrm{E}\left(\boldsymbol z_{i}\boldsymbol z_{i}^{\prime}\right)$
此时 $\tilde{\boldsymbol{S}} \equiv s^{2} \boldsymbol{S}_{Z Z}$ 是 $\boldsymbol S$ 的一致估计量，其中 $\boldsymbol{S}_{Z Z} \equiv \frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{Z}$ 。将 $\tilde{\boldsymbol{S}}^{-1}=\left(s^{2} \boldsymbol{S}_{Z Z}\right)^{-1}$ 作为最优权重矩阵，得到
$\begin{aligned} \hat{\boldsymbol{\beta}}_{\mathrm{GMM}}\left(\tilde{\boldsymbol{S}}^{-1}\right) &=\left(\boldsymbol{S}_{Z X}^{\prime}\left(s^{2} \boldsymbol{S}_{Z Z}\right)^{-1} \boldsymbol{S}_{Z X}\right)^{-1} \boldsymbol{S}_{Z X}^{\prime}\left(s^{2} \boldsymbol{S}_{Z Z}\right)^{-1} \boldsymbol{S}_{Z y} \\ &=\left(\boldsymbol{S}_{Z X}^{\prime} \boldsymbol{S}_{Z Z}^{-1} \boldsymbol{S}_{Z X}\right)^{-1} \boldsymbol{S}_{Z X}^{\prime} \boldsymbol{S}_{Z Z}^{-1} \boldsymbol{S}_{Z y} \end{aligned}$
其中 $\boldsymbol{S}_{Z X} \equiv \frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{X}, \quad \boldsymbol{S}_{Z Z} \equiv \frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{Z}, \quad \boldsymbol{S}_{Z y} \equiv \frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{y}$ ，故
$\begin{aligned} \hat{\boldsymbol{\beta}}_{\mathrm{GMM}}\left(\tilde{\boldsymbol{S}}^{-1}\right) &=\left(\frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{Z} \cdot n\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \cdot \frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right)^{-1} \frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{Z} \cdot n\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{y} \\ &=\left(\boldsymbol{X}^{\prime} \boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\prime} \boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{y} \equiv \hat{\boldsymbol{\beta}}_{2 \mathrm{SL}} \end{aligned}$
在同方差假设下两步GMM估计等价于2SLS估计；此外，权重矩阵不需要第一步估计，只需令 $\hat{\boldsymbol{S}}^{-1}=\boldsymbol{S}_{Z Z}^{-1}$ ；故2SLS也称为一步GMM

7 过度识别检验

GMM估计适用于工具变量过度识别情形（工具变量个数 > 内生解释变量个数），如果工具变量都是外生的，则目标函数 $J\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}, \hat{\boldsymbol{S}}^{-1}\right)$ 距离 $0$ 应该不远；反之，若某些工具变量存在内生性，目标函数 $J\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}, \hat{\boldsymbol{S}}^{-1}\right)$ 可能离0的距离更远。因此 $J\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}, \hat{\boldsymbol{S}}^{-1}\right)$ 可以作为过度识别的统计量：
$J\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}, \hat{\boldsymbol{S}}^{-1}\right) \stackrel{d}{\longrightarrow} \chi^{2}(L-K)$
其中 $(L - K)$ 表示过度识别的约束个数。原假设为所有工具变量均外生。在同方差假设下， $J\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}, \hat{\boldsymbol{S}}^{-1}\right)$ 与Sargan统计量相同。

8 非正交性识别

如果拒绝所有变量均外生，则需要进一步识别出哪些工具变量与扰动项存在相关性或非正交性，设 $L$ 维度的工具变量 $\boldsymbol z_i$ 种前 $L_1(L_1 \ge K)$ 个工具变量满足外生性，后 $L-L_1$ 个工具变量存在非正交性。分别计算 $L$ 个工具变量与 $L-L_1$ 个工具变量的 $J$ 统计值，并作差构造 $C$ 统计量（或GMM距离，或Sargan差）
$\equiv J-J_{1} \stackrel{d}{\longrightarrow} \chi^{2}\left(L-L_{1}\right)$
$L-L_1$ 为不满足外生性工具变量个数。