内生性问题—广义矩估计

1 GMM引入

线性回归模型满足如下线性形式
y i = x i ′ β + ε i y_i = \boldsymbol x_i^{\prime}\boldsymbol \beta + \varepsilon_i yi=xiβ+εi
若解释变量与随机扰动项满足 C o v ( x i k , ε i ) ≠ 0 Cov(x_{ik},\varepsilon_i)\ne 0 Cov(xik,εi)=0,则表明解释变量 x i k x_{ik} xik具有内生性,或 x i k x_{ik} xik为内生解释变量。这里 i , k i,k i,k分别为观测次数与自变量标识。解决上述问题的常用方法时寻找一个工具变量 z z z,使得满足以下两个条件:
{ C o v ( x , z ) ≠ 0 C o v ( z , ε ) = 0 \left\{\begin{array}{l} Cov(x,z)\ne 0\\ Cov(z,\varepsilon)=0\\ \end{array}\right. {Cov(x,z)=0Cov(z,ε)=0
第一个条件称为相关性,即工具变量与内生解释变量具有相关性(相关性越强越好);第二个条件为排斥性,即工具变量与扰动项不存在相关性。利用两阶段最小二乘法方法(2SLS)进行估计可得到一致估计量,具体思想为:通过内生解释变量对工具变量进行回归,将内生解释变量分解为不与随机扰动项相关的外生解释变量部分,与扰动项相关的内生部分;由于外生解释变量部分是关于工具变量的线性函数,因此用外生解释变量部分代替原解释变量进行回归,从而得到一致的估计量。当然,如果第一个条件,即相关性越强,则分解后的外生解释变量包含原始解释变量的信息越多,从而提高估计效率;相反,若相关性较弱,则外生解释变量包含原始变量的信息越少,估计效率大大下降。因此,需要寻找更多的工具变量,利用内生解释变量对这些工具变量进行回归,则分离后的外生解释变量包含原始内生解释变量的信息越多,估计效率越高。通过比较内生解释变量与工具变量的个数,

  • 若内生解释变量个数 > 外生解释变量个数,则待估参数不可识别(矩条件(方程)个数少于参数个数)
  • 若内生解释变量个数 = 外生解释变量个数,则待估参数恰好识别(矩条件(方程)个数等于参数个数)
  • 若内生解释变量个数 < 外生解释变量个数,则待估参数过度识别(矩条件(方程)个数大于参数个数)

第一个情况无法估计参数,第二种情况刚好能找到一组参数解,第三种情况存在无数组解。第二种情况虽然能识别参数,但每个内生解释变量都对应一个外生变量,分解的出外生解释变量不一定足够包含内生解释变量的大部分信息;第三种情况虽然有更多的工具变量,但估计参数存在无穷组解。一种方法是将多个工具变量线性组合为一个工具变量,此时回到恰好识别情形。线性组合也包括无穷种,根据已有证明,在球形扰动假设条件下,2SLS提供的工具变量的线性组合是最有效率的。2SLS尽管能解决过度识别情形,但却是在球形扰动条件下成立,即扰动项方程协方差矩阵不存在自相关以及同方差假设。为为了能在非球型扰动假设条件下实现过度识别情形的估计,需要引入GMM估计方法。GMM与2SLS关系就如同GLS与与OLS的关系;因为前者都不受到球形扰动假设约束,后者皆在球形扰动假设下成立。


2 GMM假定

2.1 线性假设

线性回归模型满足如下线性形式
y i = x i ′ β + ε i y_i = \boldsymbol x_i^{\prime}\boldsymbol \beta + \varepsilon_i yi=xiβ+εi
其中 x i = ( x i 1 , x i 1 , … x i k ) ′ \boldsymbol x_i = (x_{i1},x_{i1},\dots x_{ik})' xi=(xi1,xi1,xik)为第 i i i次观测。


2.2 渐进独立平稳

被解释变量 y i y_i yi、解释变量 x i \boldsymbol x _i xi与工具变量 z i \boldsymbol z_i zi(维度是 L L L)构成的随机过程 w i = u n i q u e { y i , x i , z i } \boldsymbol w_i =unique \{y_i,\boldsymbol x _i,\boldsymbol z_i\} wi=unique{yi,xi,zi}为渐进独立平稳过程;其中unique表示这些变量不存在重叠。


2.3 工具变量正交性

既然是工具变量,至少需要符号前定变量条件,即工具变量与同期扰动项不相关;设 L L L维向量 g i = z i ε i \boldsymbol g_i = \boldsymbol z_i \varepsilon_i gi=ziεi,其期望为 E ( g i ) = E ( z i ε i ) = 0 E(\boldsymbol g_i) = E(\boldsymbol z_i \varepsilon_i)=0 E(gi)=E(ziεi)=0


2.4 满秩条件

矩阵 E ( z i x i ′ ) E(\boldsymbol z_i \boldsymbol x_i') E(zixi)列满秩,即 r a n k ( E ( z i x i ′ ) ) = K rank(E(\boldsymbol z_i \boldsymbol x_i')) =K rank(E(zixi))=K这里 L > K L>K L>K,并记 Σ Z X ≡ E ( z i x i ′ ) \boldsymbol{\Sigma}_{Z X} \equiv \mathrm{E}\left(z_{i} \boldsymbol{x}_{i}^{\prime}\right) ΣZXE(zixi)


2.5 鞅差分序列

g i \boldsymbol g_i gi为鞅差分序列,其协方差矩阵
S ≡ E ( g i g i ′ ) = E ( ε i 2 z i z i ′ ) \boldsymbol{S} \equiv \mathrm{E}\left(\boldsymbol{g}_{i} \boldsymbol{g}_{i}^{\prime}\right)=\mathrm{E}\left(\varepsilon_{i}^{2} \boldsymbol{z}_{i} z_{i}^{\prime}\right) SE(gigi)=E(εi2zizi)
可逆


2.6 四阶矩条件

关于解释变量 x x x的四阶矩条件 E [ ( x i k z i j ) 2 ] \mathrm{E}\left[\left(x_{i k} z_{i j}\right)^{2}\right] E[(xikzij)2]存在其有限, ∀ i , j , k \forall i,j,k i,j,k


3 GMM推导

设总体矩条件
E ( g i ) = E ( z i ε i ) = 0 \mathrm{E}\left(\boldsymbol{g}_{i}\right)=\mathrm{E}\left(z_{i} \varepsilon_{i}\right)=\mathbf{0} E(gi)=E(ziεi)=0
的样本矩条件
g n ( β ^ ) ≡ 1 n ∑ i = 1 n z i ( y i − x i ′ β ^ ) = 0 \boldsymbol{g}_{n}(\hat{\boldsymbol{\beta}}) \equiv \frac{1}{n} \sum_{i=1}^{n} z_{i}\left(y_{i}-\boldsymbol{x}_{i}^{\prime} \hat{\boldsymbol{\beta}}\right)=\mathbf{0} gn(β^)n1i=1nzi(yixiβ^)=0
其中 z i \boldsymbol z_i zi的维度为 L L L,参数 β ^ \hat {\boldsymbol \beta} β^的维度为 K K K,这里工具变量个数大于内生解释变量个数,即 L > K L>K L>K。此时无法找到唯一解 β ^ \boldsymbol{\hat\beta} β^,使得 g n ( β ^ ) = 0 \boldsymbol{g}_{n}(\hat{\boldsymbol{\beta}}) =0 gn(β^)=0成立。我们将 g n ( β ^ ) \boldsymbol{g}_{n}(\hat{\boldsymbol{\beta}}) gn(β^)转为二次型:如果存在解 β ^ \boldsymbol{\hat\beta} β^使得 g n ( β ^ ) \boldsymbol{g}_{n}(\hat{\boldsymbol{\beta}}) gn(β^)无限接近0,则二次型
( g n ( β ^ ) ) 1 × L ′ ( g n ( β ^ ) ) L × 1 → 0 \left(\boldsymbol{g}_{n}(\hat{\boldsymbol{\beta}})\right)^{\prime}_{1 \times L}\left(\boldsymbol{g}_{n}(\hat{\boldsymbol{\beta}})\right)_{L \times 1} \to 0 (gn(β^))1×L(gn(β^))L×10
二次型还需要一个依赖于样本的随机正定对称矩阵 W ^ L × L \hat W_{L \times L} W^L×L,且在大样本条件下, P lim ⁡ n → ∞ W ^ = W P \lim_{n\to \infty} \hat{W} =W PlimnW^=W, W W W为非随机的对称正定矩阵。定义最小化目标函数
min ⁡ β ^ J ( β ^ , W ^ ) ≡ n ( g n ( β ^ ) ) ′ W ^ ( g n ( β ^ ) ) \min _{\hat{\beta}} J(\hat{\boldsymbol{\beta}}, \hat{\boldsymbol{W}}) \equiv n\left(\boldsymbol{g}_{n}(\hat{\boldsymbol{\beta}})\right)^{\prime} \hat{\boldsymbol{W}}\left(\boldsymbol{g}_{n}(\hat{\boldsymbol{\beta}})\right) β^minJ(β^,W^)n(gn(β^))W^(gn(β^))
其中目标函数一定大于0,而 n n n是为了方便统计计算,不影响最小值点;定义 G M M GMM GMM估计量为该问题的最优解,则
β ^ G M M ( W ^ ) ≡ argmin ⁡ β ^ J ( β ^ , W ^ ) \hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}}) \equiv \underset{\hat{\boldsymbol{\beta}}}{\operatorname{argmin}} J(\hat{\boldsymbol{\beta}}, \hat{\boldsymbol{W}}) β^GMM(W^)β^argminJ(β^,W^)
显然 β ^ \boldsymbol {\hat \beta} β^是关于权重矩阵 W ^ \hat W W^的函数,因此选择不同 W W W β ^ \boldsymbol {\hat \beta} β^的估计效率也存在差异。 W ^ \hat W W^的作用是对 L L L个矩条件进行赋权,不同矩条件的强弱不同,则对应的方差较小(矩阵 S = E ( g i g i ′ ) \boldsymbol{S}=\mathrm{E}\left(\boldsymbol{g}_{i} \boldsymbol{g}_{i}^{\prime}\right) S=E(gigi)对角线元素),此时应在 W ^ \hat W W^种赋予更大的权重。当然最简单的方法将 W ^ \hat W W^视为单位阵,即不同矩条件的影响相同。下面是 G M M GMM GMM估计量推导过程:记 S Z X ≡ 1 n ∑ i = 1 n z i x i ′ , S Z y ≡ 1 n ∑ i = 1 n z i y i \boldsymbol{S}_{\mathrm{ZX}} \equiv \frac{1}{n} \sum_{i=1}^{n} \boldsymbol{z}_{i} \boldsymbol{x}_{i}^{\prime}, \quad \boldsymbol{S}_{Z y} \equiv \frac{1}{n} \sum_{i=1}^{n} \boldsymbol{z}_{i} y_{i} SZXn1i=1nzixi,SZyn1i=1nziyi,则最小化目标函数,
J ( β ^ , W ^ ) = n ( S Z y − S Z X β ^ ) ′ W ^ ( S Z y − S Z X β ^ ) = n ( S Z y ′ − β ^ ′ S Z X ′ ) W ^ ( S Z y − S Z X β ^ ) = n ( S Z y ′ W ^ − β ^ ′ S Z X ′ W ^ ) ( S Z y − S Z X β ^ ) = n ( S Z y ′ W ^ S Z y − β ^ ′ S Z X ′ W ^ S Z y − S Z y ′ W ^ S Z X β ^ + β ^ ′ S Z X ′ W ^ S Z X β ^ ) = n ( S Z y ′ W ^ S Z y − 2 β ^ ′ S Z X ′ W ^ S Z y + β ^ ′ S Z X ′ W ^ S Z X β ^ ) \begin{aligned} J(\hat{\boldsymbol{\beta}}, \hat{\boldsymbol{W}})&=n\left(\boldsymbol{S}_{Zy}-\boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}}\right)^{\prime} \hat{\boldsymbol{W}}\left(\boldsymbol{S}_{Zy}-\boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}}\right)=n\left(\boldsymbol{S}_{\mathrm{Zy}}^{\prime}-\hat{\boldsymbol{\beta}}^{\prime} \boldsymbol{S}_{Z X}^{\prime}\right) \hat{\boldsymbol{W}}\left(\boldsymbol{S}_{Zy}-\boldsymbol{S}_{ZX} \hat{\boldsymbol{\beta}}\right)\\ &=n\left(\boldsymbol{S}_{\mathrm{Zy}}^{\prime} \hat{\boldsymbol{W}}-\hat{\boldsymbol{\beta}}^{\prime} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}}\right)\left(\boldsymbol{S}_{\mathrm{Zy}}-\boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}}\right)\\ & =n\left(\boldsymbol{S}_{Zy}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Zy}-\hat{\boldsymbol{\beta}}^{\prime} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Zy}-\boldsymbol{S}_{Zy}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}}+\hat{\boldsymbol{\beta}}^{\prime} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}}\right)\\ & = n\left(\boldsymbol{S}_{Z y}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Zy}-2 \hat{\boldsymbol{\beta}}^{\prime} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Zy}+\hat{\boldsymbol{\beta}}^{\prime} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}}\right) \end{aligned} J(β^,W^)=n(SZySZXβ^)W^(SZySZXβ^)=n(SZyβ^SZX)W^(SZySZXβ^)=n(SZyW^β^SZXW^)(SZySZXβ^)=n(SZyW^SZyβ^SZXW^SZySZyW^SZXβ^+β^SZXW^SZXβ^)=n(SZyW^SZy2β^SZXW^SZy+β^SZXW^SZXβ^)
其中
( β ^ ′ S Z X ′ W ^ S Z y ) ′ = S x y ′ W ^ S Z X β ^ \left(\hat{\boldsymbol{\beta}}^{\prime} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Zy}\right)^{\prime}=\boldsymbol{S}_{xy}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}} (β^SZXW^SZy)=SxyW^SZXβ^
对向量 β ^ \boldsymbol {\hat \beta} β^求微分得
∂ J ( β ^ , W ^ ) ∂ β ^ = n ( − 2 S Z X ′ W ^ S Z y + 2 S Z X ′ W ^ S Z X β ^ ) = 0 \frac{\partial J(\hat{\boldsymbol{\beta}}, \hat{\boldsymbol{W}})}{\partial \hat{\boldsymbol{\beta}}}=n\left(-2 \boldsymbol{S}_{ZX}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Zy}+2 \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}}\right)=0 β^J(β^,W^)=n(2SZXW^SZy+2SZXW^SZXβ^)=0
整理
S Z X ′ W ^ S Z X β ^ = S z X ′ W ^ S Z y \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}}=\boldsymbol{S}_{z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Zy} SZXW^SZXβ^=SzXW^SZy
根据假定2.4以及 W ^ \hat{W} W^正定对称,解得
β ^ G M M ( W ^ ) = ( S Z X ′ W ^ S Z X ) − 1 S Z X ′ W ^ S Z y \hat{\boldsymbol{\beta}}_{GMM}(\hat{\boldsymbol{W}})=\left(\boldsymbol{S}_{ZX}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{ZX}\right)^{-1} \boldsymbol{S}_{ZX}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Zy} β^GMM(W^)=(SZXW^SZX)1SZXW^SZy
在大样本条件下 ( S Z X ′ W ^ S Z X ) − 1 \left(\boldsymbol{S}_{ZX}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{ZX}\right)^{-1} (SZXW^SZX)1满秩。在恰好识别 S Z X \boldsymbol{S}_{\mathrm{ZX}} SZX K × K K \times K K×K维仿阵,可逆则
β ^ G M M ( W ^ ) = S Z X − 1 W ^ − 1 S Z X ′ − 1 S Z X ′ W ^ ⏟ = I S Z y = S Z X − 1 S Z y = β ^ I V \hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}})=\boldsymbol{S}_{Z X}^{-1} \underbrace{\hat{\boldsymbol{W}}^{-1} \boldsymbol{S}_{\mathrm{ZX}}^{\prime-1} \boldsymbol{S}_{\mathrm{ZX}}^{\prime} \hat{\boldsymbol{W}}}_{=\boldsymbol{I}} \boldsymbol{S}_{Z_{y}}=\boldsymbol{S}_{Z X}^{-1} \boldsymbol{S}_{Z y}=\hat{\boldsymbol{\beta}}_{\mathrm{IV}} β^GMM(W^)=SZX1=I W^1SZX1SZXW^SZy=SZX1SZy=β^IV
即在恰好识别条件下, G M M GMM GMM估计量与 I V IV IV估计量等价。因此只有在过度识别条件下,才能用 G M M GMM GMM方法


4 大样本性质

4.1 一致性

在大样本条件下,GMM估计量
plim ⁡ n → ∞ β ^ G M M ( W ^ ) = β \operatorname{plim}_{n \rightarrow \infty} \hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}})=\boldsymbol{\beta} plimnβ^GMM(W^)=β
收敛于总体回归参数 β \boldsymbol \beta β。证明如下: β ^ G M M ( W ^ ) \hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}}) β^GMM(W^)的抽样误差为
β ^ G M M ( W ^ ) − β = ( S Z X ′ W ^ S Z X ) − 1 S Z X ′ W ^ ( 1 n ∑ i = 1 n z i y i ) − β = ( S Z X ′ W ^ S Z X ) − 1 S Z X ′ W ^ ( 1 n ∑ i = 1 n z i ( x i ′ β + ε i ) ) − β = ( S Z X ′ W ^ S Z X ) − 1 S Z X ′ W ^ ( S Z X β + 1 n ∑ i = 1 n z i ε i ) − β = ( S Z X ′ W ^ S Z X ) − 1 S Z X ′ W ^ g ‾ \begin{aligned} \hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}})-\boldsymbol{\beta} &=\left(\boldsymbol{S}_{\mathrm{ZX}}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{\mathrm{ZX}}\right)^{-1} \boldsymbol{S}_{\mathrm{ZX}}^{\prime} \hat{\boldsymbol{W}}\left(\frac{1}{n} \sum_{i=1}^{n} z_{i} y_{i}\right)-\boldsymbol{\beta} \\ &=\left(\boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X}\right)^{-1} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}}\left(\frac{1}{n} \sum_{i=1}^{n} z_{i}\left(\boldsymbol{x}_{i}^{\prime} \boldsymbol{\beta}+\varepsilon_{i}\right)\right)-\boldsymbol{\beta} \\ &=\left(\boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X}\right)^{-1} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}}\left(\boldsymbol{S}_{\mathrm{ZX}} \boldsymbol{\beta}+\frac{1}{n} \sum_{i=1}^{n} z_{i} \varepsilon_{i}\right)-\boldsymbol{\beta} \\ &=\left(\boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X}\right)^{-1} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \overline{\boldsymbol{g}} \end{aligned} β^GMM(W^)β=(SZXW^SZX)1SZXW^(n1i=1nziyi)β=(SZXW^SZX)1SZXW^(n1i=1nzi(xiβ+εi))β=(SZXW^SZX)1SZXW^(SZXβ+n1i=1nziεi)β=(SZXW^SZX)1SZXW^g
其中 g ‾ ≡ 1 n ∑ i = 1 n g i , g i ≡ z i ε i \overline{\boldsymbol{g}} \equiv \frac{1}{n} \sum_{i=1}^{n} \boldsymbol{g}_{i}, \boldsymbol{g}_{i} \equiv \boldsymbol{z}_{i} \varepsilon_{i} gn1i=1ngi,giziεi ( S Z X ′ W ^ S Z X ) − 1 ⟶ p ( Σ Z X ′ W Σ Z X ) − 1 \left(\boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X}\right)^{-1} \stackrel{p}{\longrightarrow}\left(\boldsymbol{\Sigma}_{Z X}^{\prime} \boldsymbol{W} \boldsymbol{\Sigma}_{Z X}\right)^{-1} (SZXW^SZX)1p(ΣZXWΣZX)1 S Z X ′ W ^ ⟶ p Σ Z X ′ W \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \stackrel{p}{\longrightarrow} \boldsymbol{\Sigma}_{Z X}^{\prime} \boldsymbol{W} SZXW^pΣZXW g ‾ ⟶ p E ( g i ) = E ( z i ε i ) = 0 \overline{\boldsymbol{g}} \stackrel{p}{\longrightarrow} \mathrm{E}\left(\boldsymbol{g}_{i}\right)=\mathrm{E}\left(\boldsymbol{z}_{i} \varepsilon_{i}\right)=\mathbf{0} gpE(gi)=E(ziεi)=0;故
β ^ G M M ( W ^ ) − β ⟶ p 0 \hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}})-\boldsymbol{\beta} \stackrel{p}{\longrightarrow} \mathbf{0} β^GMM(W^)βp0


4.2 渐进正态性

在假定2.5(鞅差分序列假定)条件下,
n ( β ^ G M M − β ) ⟶ d N ( 0 , Avar ⁡ ( β ^ G M M ) ) \sqrt{n}\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}-\boldsymbol{\beta}\right) \stackrel{d}{\longrightarrow} N\left(\mathbf{0}, \operatorname{Avar}\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}\right)\right) n (β^GMMβ)dN(0,Avar(β^GMM))
其中
Avar ⁡ ( β ^ G M M ) = ( Σ Z X ′ W Σ Z X ′ ) − 1 Σ Z X W S W Σ Z X ( Σ Z X ′ W Σ Z X ) − 1 \operatorname{Avar}\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}\right)=\left(\Sigma_{Z X}^{\prime} \boldsymbol{W} \boldsymbol{\Sigma}_{Z X}^{\prime}\right)^{-1} \boldsymbol{\Sigma}_{Z X} \boldsymbol{W} \boldsymbol{S} \boldsymbol{W} \boldsymbol{\Sigma}_{\mathrm{ZX}}\left(\boldsymbol{\Sigma}_{Z X}^{\prime} \boldsymbol{W} \boldsymbol{\Sigma}_{\mathrm{ZX}}\right)^{-1} Avar(β^GMM)=(ΣZXWΣZX)1ΣZXWSWΣZX(ΣZXWΣZX)1

S = E ( g i g i ′ ) = E ( ε i 2 z i z i ′ ) , Σ Z X ≡ E ( z i x i ′ ) \boldsymbol{S}=\mathrm{E}\left(\boldsymbol{g}_{i} \boldsymbol{g}_{i}^{\prime}\right)=\mathrm{E}\left(\varepsilon_{i}^{2} \boldsymbol{z}_{i} \boldsymbol z_{i}^{\prime}\right), \quad \boldsymbol{\Sigma}_{Z X} \equiv \mathrm{E}\left(\boldsymbol z_{i} \boldsymbol{x}_{i}^{\prime}\right) S=E(gigi)=E(εi2zizi),ΣZXE(zixi)

证明如下:抽样误差、
β ^ G M M ( W ^ ) − β = ( S Z X ′ W ^ S Z X ) − 1 S Z X ′ W ^ g ‾ \hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}})-\boldsymbol{\beta}=\left(\boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X}\right)^{-1} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \overline{\boldsymbol{g}} β^GMM(W^)β=(SZXW^SZX)1SZXW^g

n ( β ^ G M M ( W ^ ) − β ) = ( S Z X ′ W ^ S Z X ) − 1 S Z X ′ W ^ ( n g ‾ ) \sqrt{n}\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}})-\boldsymbol{\beta}\right)=\left(\boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X}\right)^{-1} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}}(\sqrt{n} \overline{\boldsymbol{g}}) n (β^GMM(W^)β)=(SZXW^SZX)1SZXW^(n g)
在假定2.5,利用中心极限定理
n g ‾ ⟶ d N ( 0 , S ) \sqrt{n} \overline{\boldsymbol{g}} \stackrel{d}{\longrightarrow} N(\mathbf{0}, \boldsymbol{S}) n gdN(0,S)
这里 S ≡ E ( g i g i ′ ) = E ( ε i 2 z i z i ′ ) \boldsymbol{S} \equiv \mathrm{E}\left(\boldsymbol{g}_{i} \boldsymbol{g}_{i}^{\prime}\right)=\mathrm{E}\left(\varepsilon_{i}^{2} \boldsymbol{z}_{i} \boldsymbol{z}_{i}^{\prime}\right) SE(gigi)=E(εi2zizi);于是
n ( β ^ G M M ( W ^ ) − β ) ⟶ d N ( 0 , Avar ⁡ ( β ^ G M M ) ) \sqrt{n}\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}})-\boldsymbol{\beta}\right)\stackrel{d}{\longrightarrow} N\left(\mathbf{0}, \operatorname{Avar}\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}\right)\right) n (β^GMM(W^)β)dN(0,Avar(β^GMM))
由于 ( S Z X ′ W ^ S Z X ) − 1 ⟶ p ( Σ Z X ′ W Σ Z X ) − 1 \left(\boldsymbol{S}_{\mathrm{ZX}}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X}\right)^{-1} \stackrel{p}{\longrightarrow}\left(\boldsymbol{\Sigma}_{Z X}^{\prime} \boldsymbol{W} \boldsymbol{\Sigma}_{Z X}\right)^{-1} (SZXW^SZX)1p(ΣZXWΣZX)1 S Z X ′ W ^ ⟶ p Σ Z X ′ W \boldsymbol{S}_{Z X}^{\prime} \hat{W} \stackrel{p}{\longrightarrow} \Sigma_{Z X}^{\prime} \boldsymbol{W} SZXW^pΣZXW;故
Avar ⁡ ( β ^ G M M ) = ( Σ Z X ′ W Σ Z X ) − 1 Σ Z X ′ W S W Σ Z X ( Σ Z X ′ W Σ Z X ) − 1 \operatorname{Avar}\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}\right)=\left(\Sigma_{Z X}^{\prime} \boldsymbol{W} \boldsymbol{\Sigma}_{Z X}\right)^{-1} \boldsymbol{\Sigma}_{Z X}^{\prime} \boldsymbol{W} \boldsymbol{S} \boldsymbol{W} \boldsymbol{\Sigma}_{Z X}\left(\boldsymbol{\Sigma}_{Z X}^{\prime} \boldsymbol{W} \boldsymbol{\Sigma}_{Z X}\right)^{-1} Avar(β^GMM)=(ΣZXWΣZX)1ΣZXWSWΣZX(ΣZXWΣZX)1
为夹心估计量。


5 最优权重矩阵与估计

在假定2.1,2.2与2.6条件下,对于 β \boldsymbol \beta β的任意一致估计量 β ^ \boldsymbol{ \hat \beta} β^,其残差为 e i ≡ y i − x i ′ β ^ e_{i} \equiv y_{i}-\boldsymbol{x}_{i}^{\prime} \hat{\boldsymbol{\beta}} eiyixiβ^;则 s 2 ≡ 1 n ∑ i = 1 n e i 2 s^{2} \equiv \frac{1}{n} \sum_{i=1}^{n} e_{i}^{2} s2n1i=1nei2是总体回归函数随机扰动项方差 σ 2 ≡ E ( ε i 2 ) \sigma^{2} \equiv \mathrm{E}\left(\varepsilon_{i}^{2}\right) σ2E(εi2)的一致估计量;且 S ^ ≡ 1 n ∑ i = 1 n e i 2 z i z i ′ \hat{S} \equiv \frac{1}{n} \sum_{i=1}^{n} e_{i}^{2} z_{i} z_{i}^{\prime} S^n1i=1nei2zizi也是 S ≡ E ( ε i 2 z i z i ′ ) \boldsymbol{S} \equiv \mathrm{E}\left(\varepsilon_{i}^{2} z_{i} z_{i}^{\prime}\right) SE(εi2zizi)的一致估计量。经证明,使 Avar ⁡ ( β ^ G M M ) \operatorname{Avar}\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}\right) Avar(β^GMM)最小化的最优权重矩阵即为
W ^ = S ^ − 1 \hat{\boldsymbol{W}}=\hat{\boldsymbol{S}}^{-1} W^=S^1
为了得到最优权重矩阵,需要得到关于 β \boldsymbol \beta β的一致估计量。显然两阶段最小二乘法(2SLS)能得到参数一致估计量(尽管可能不是最优效率的);并计算残差估计权重矩阵
W ^ = S ^ − 1 ≡ ( 1 n ∑ i = 1 n e i 2 z i z i ′ ) − 1 \hat{\boldsymbol{W}} = \hat{\boldsymbol{S}}^{-1} \equiv (\frac{1}{n} \sum_{i=1}^{n} e_{i}^{2} \boldsymbol{z}_{i} \boldsymbol{z}_{i}^{\prime})^{-1} W^=S^1(n1i=1nei2zizi)1
W ^ \hat{\boldsymbol{W}} W^代入目标函数最小化 J ( β ^ , S ^ − 1 ) J\left(\hat{\boldsymbol{\beta}}, \hat{\boldsymbol{S}}^{-1}\right) J(β^,S^1),即可得到 β ^ G M M ( S ^ − 1 ) \hat{\boldsymbol{\beta}}_{\mathrm{GMM}}\left(\hat{\boldsymbol{S}}^{-1}\right) β^GMM(S^1)。上述方法称为两步GMM;另一种方法在两步GMM基础上得到的样本残差再次作为权重矩阵 W ^ \hat{\boldsymbol{W}} W^的估计量,最小化目标函数 J ( β ^ , S ^ − 1 ) J\left(\hat{\boldsymbol{\beta}}, \hat{\boldsymbol{S}}^{-1}\right) J(β^,S^1)直至参数收敛为止。


6 同方差情形

GMM估计适合非球形扰动假设(异方差与自相关)情形,对于同方差情形 E ( ε i 2 ∣ z i ) = σ 2 > 0 \mathrm{E}\left(\varepsilon_{i}^{2} \mid \boldsymbol z_{i}\right)=\sigma^{2}>0 E(εi2zi)=σ2>0,利用迭代期望公式
S ≡ E ( z i z i ′ ε i 2 ) = E z i E ( z i z i ′ ε i 2 ∣ z i ) = E z i [ z i z i ′ E ( ε i 2 ∣ z i ) ] = σ 2 E ( z i z i ′ ) \boldsymbol{S} \equiv \mathrm{E}\left(\boldsymbol z_{i} \boldsymbol z_{i}^{\prime} \boldsymbol \varepsilon_{i}^{2}\right)=\mathrm{E}_{\boldsymbol z_{i}} \mathrm{E}\left(\boldsymbol z_{i} \boldsymbol z_{i}^{\prime} \boldsymbol \varepsilon_{i}^{2} \mid \boldsymbol z_{i}\right)=\mathrm{E}_{\boldsymbol z_{i}}\left[\boldsymbol z_{i} \boldsymbol z_{i}^{\prime} \mathrm{E}\left(\boldsymbol \varepsilon_{i}^{2} \mid \boldsymbol z_{i}\right)\right]=\sigma^{2} \mathrm{E}\left(\boldsymbol z_{i}\boldsymbol z_{i}^{\prime}\right) SE(ziziεi2)=EziE(ziziεi2zi)=Ezi[ziziE(εi2zi)]=σ2E(zizi)
此时 S ~ ≡ s 2 S Z Z \tilde{\boldsymbol{S}} \equiv s^{2} \boldsymbol{S}_{Z Z} S~s2SZZ S \boldsymbol S S的一致估计量,其中 S Z Z ≡ 1 n Z ′ Z \boldsymbol{S}_{Z Z} \equiv \frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{Z} SZZn1ZZ。将 S ~ − 1 = ( s 2 S Z Z ) − 1 \tilde{\boldsymbol{S}}^{-1}=\left(s^{2} \boldsymbol{S}_{Z Z}\right)^{-1} S~1=(s2SZZ)1作为最优权重矩阵,得到
β ^ G M M ( S ~ − 1 ) = ( S Z X ′ ( s 2 S Z Z ) − 1 S Z X ) − 1 S Z X ′ ( s 2 S Z Z ) − 1 S Z y = ( S Z X ′ S Z Z − 1 S Z X ) − 1 S Z X ′ S Z Z − 1 S Z y \begin{aligned} \hat{\boldsymbol{\beta}}_{\mathrm{GMM}}\left(\tilde{\boldsymbol{S}}^{-1}\right) &=\left(\boldsymbol{S}_{Z X}^{\prime}\left(s^{2} \boldsymbol{S}_{Z Z}\right)^{-1} \boldsymbol{S}_{Z X}\right)^{-1} \boldsymbol{S}_{Z X}^{\prime}\left(s^{2} \boldsymbol{S}_{Z Z}\right)^{-1} \boldsymbol{S}_{Z y} \\ &=\left(\boldsymbol{S}_{Z X}^{\prime} \boldsymbol{S}_{Z Z}^{-1} \boldsymbol{S}_{Z X}\right)^{-1} \boldsymbol{S}_{Z X}^{\prime} \boldsymbol{S}_{Z Z}^{-1} \boldsymbol{S}_{Z y} \end{aligned} β^GMM(S~1)=(SZX(s2SZZ)1SZX)1SZX(s2SZZ)1SZy=(SZXSZZ1SZX)1SZXSZZ1SZy
其中 S Z X ≡ 1 n Z ′ X , S Z Z ≡ 1 n Z ′ Z , S Z y ≡ 1 n Z ′ y \boldsymbol{S}_{Z X} \equiv \frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{X}, \quad \boldsymbol{S}_{Z Z} \equiv \frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{Z}, \quad \boldsymbol{S}_{Z y} \equiv \frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{y} SZXn1ZX,SZZn1ZZ,SZyn1Zy,故
β ^ G M M ( S ~ − 1 ) = ( 1 n X ′ Z ⋅ n ( Z ′ Z ) − 1 ⋅ 1 n Z ′ X ) − 1 1 n X ′ Z ⋅ n ( Z ′ Z ) − 1 1 n Z ′ y = ( X ′ Z ( Z ′ Z ) − 1 Z ′ X ) − 1 X ′ Z ( Z ′ Z ) − 1 Z ′ y ≡ β ^ 2 S L \begin{aligned} \hat{\boldsymbol{\beta}}_{\mathrm{GMM}}\left(\tilde{\boldsymbol{S}}^{-1}\right) &=\left(\frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{Z} \cdot n\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \cdot \frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right)^{-1} \frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{Z} \cdot n\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{y} \\ &=\left(\boldsymbol{X}^{\prime} \boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\prime} \boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{y} \equiv \hat{\boldsymbol{\beta}}_{2 \mathrm{SL}} \end{aligned} β^GMM(S~1)=(n1XZn(ZZ)1n1ZX)1n1XZn(ZZ)1n1Zy=(XZ(ZZ)1ZX)1XZ(ZZ)1Zyβ^2SL
在同方差假设下两步GMM估计等价于2SLS估计;此外,权重矩阵不需要第一步估计,只需令 S ^ − 1 = S Z Z − 1 \hat{\boldsymbol{S}}^{-1}=\boldsymbol{S}_{Z Z}^{-1} S^1=SZZ1;故2SLS也称为一步GMM


7 过度识别检验

GMM估计适用于工具变量过度识别情形(工具变量个数 > 内生解释变量个数),如果工具变量都是外生的,则目标函数 J ( β ^ G M M , S ^ − 1 ) J\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}, \hat{\boldsymbol{S}}^{-1}\right) J(β^GMM,S^1)距离 0 0 0应该不远;反之,若某些工具变量存在内生性,目标函数 J ( β ^ G M M , S ^ − 1 ) J\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}, \hat{\boldsymbol{S}}^{-1}\right) J(β^GMM,S^1)可能离0的距离更远。因此 J ( β ^ G M M , S ^ − 1 ) J\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}, \hat{\boldsymbol{S}}^{-1}\right) J(β^GMM,S^1)可以作为过度识别的统计量:
J ( β ^ G M M , S ^ − 1 ) ⟶ d χ 2 ( L − K ) J\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}, \hat{\boldsymbol{S}}^{-1}\right) \stackrel{d}{\longrightarrow} \chi^{2}(L-K) J(β^GMM,S^1)dχ2(LK)
其中 ( L − K ) (L-K) (LK)表示过度识别的约束个数。原假设为所有工具变量均外生。在同方差假设下, J ( β ^ G M M , S ^ − 1 ) J\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}, \hat{\boldsymbol{S}}^{-1}\right) J(β^GMM,S^1)与Sargan统计量相同。


8 非正交性识别

如果拒绝所有变量均外生,则需要进一步识别出哪些工具变量与扰动项存在相关性或非正交性,设 L L L维度的工具变量 z i \boldsymbol z_i zi种前 L 1 ( L 1 ≥ K ) L_1(L_1 \ge K) L1(L1K)个工具变量满足外生性,后 L − L 1 L-L_1 LL1个工具变量存在非正交性。分别计算 L L L个工具变量与 L − L 1 L-L_1 LL1个工具变量的 J J J统计值,并作差构造 C C C统计量(或GMM距离,或Sargan差)
C ≡ J − J 1 ⟶ d χ 2 ( L − L 1 ) C \equiv J-J_{1} \stackrel{d}{\longrightarrow} \chi^{2}\left(L-L_{1}\right) CJJ1dχ2(LL1)
L − L 1 L-L_1 LL1为不满足外生性工具变量个数。


9 自相关情形

当存在自相关时(时间序列)也可以用GMM方法,在估计时采用自相关异方差稳健标准误推断即可。


-END-

参考文献

陈强.高级计量经济学[M].高等教育出版社

  • 3
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值