文章目录
1 GMM引入
线性回归模型满足如下线性形式
y
i
=
x
i
′
β
+
ε
i
y_i = \boldsymbol x_i^{\prime}\boldsymbol \beta + \varepsilon_i
yi=xi′β+εi
若解释变量与随机扰动项满足
C
o
v
(
x
i
k
,
ε
i
)
≠
0
Cov(x_{ik},\varepsilon_i)\ne 0
Cov(xik,εi)=0,则表明解释变量
x
i
k
x_{ik}
xik具有内生性,或
x
i
k
x_{ik}
xik为内生解释变量。这里
i
,
k
i,k
i,k分别为观测次数与自变量标识。解决上述问题的常用方法时寻找一个工具变量
z
z
z,使得满足以下两个条件:
{
C
o
v
(
x
,
z
)
≠
0
C
o
v
(
z
,
ε
)
=
0
\left\{\begin{array}{l} Cov(x,z)\ne 0\\ Cov(z,\varepsilon)=0\\ \end{array}\right.
{Cov(x,z)=0Cov(z,ε)=0
第一个条件称为相关性,即工具变量与内生解释变量具有相关性(相关性越强越好);第二个条件为排斥性,即工具变量与扰动项不存在相关性。利用两阶段最小二乘法方法(2SLS)进行估计可得到一致估计量,具体思想为:通过内生解释变量对工具变量进行回归,将内生解释变量分解为不与随机扰动项相关的外生解释变量部分,与扰动项相关的内生部分;由于外生解释变量部分是关于工具变量的线性函数,因此用外生解释变量部分代替原解释变量进行回归,从而得到一致的估计量。当然,如果第一个条件,即相关性越强,则分解后的外生解释变量包含原始解释变量的信息越多,从而提高估计效率;相反,若相关性较弱,则外生解释变量包含原始变量的信息越少,估计效率大大下降。因此,需要寻找更多的工具变量,利用内生解释变量对这些工具变量进行回归,则分离后的外生解释变量包含原始内生解释变量的信息越多,估计效率越高。通过比较内生解释变量与工具变量的个数,
- 若内生解释变量个数 > 外生解释变量个数,则待估参数不可识别(矩条件(方程)个数少于参数个数)
- 若内生解释变量个数 = 外生解释变量个数,则待估参数恰好识别(矩条件(方程)个数等于参数个数)
- 若内生解释变量个数 < 外生解释变量个数,则待估参数过度识别(矩条件(方程)个数大于参数个数)
第一个情况无法估计参数,第二种情况刚好能找到一组参数解,第三种情况存在无数组解。第二种情况虽然能识别参数,但每个内生解释变量都对应一个外生变量,分解的出外生解释变量不一定足够包含内生解释变量的大部分信息;第三种情况虽然有更多的工具变量,但估计参数存在无穷组解。一种方法是将多个工具变量线性组合为一个工具变量,此时回到恰好识别情形。线性组合也包括无穷种,根据已有证明,在球形扰动假设条件下,2SLS提供的工具变量的线性组合是最有效率的。2SLS尽管能解决过度识别情形,但却是在球形扰动条件下成立,即扰动项方程协方差矩阵不存在自相关以及同方差假设。为为了能在非球型扰动假设条件下实现过度识别情形的估计,需要引入GMM估计方法。GMM与2SLS关系就如同GLS与与OLS的关系;因为前者都不受到球形扰动假设约束,后者皆在球形扰动假设下成立。
2 GMM假定
2.1 线性假设
线性回归模型满足如下线性形式
y
i
=
x
i
′
β
+
ε
i
y_i = \boldsymbol x_i^{\prime}\boldsymbol \beta + \varepsilon_i
yi=xi′β+εi
其中
x
i
=
(
x
i
1
,
x
i
1
,
…
x
i
k
)
′
\boldsymbol x_i = (x_{i1},x_{i1},\dots x_{ik})'
xi=(xi1,xi1,…xik)′为第
i
i
i次观测。
2.2 渐进独立平稳
被解释变量 y i y_i yi、解释变量 x i \boldsymbol x _i xi与工具变量 z i \boldsymbol z_i zi(维度是 L L L)构成的随机过程 w i = u n i q u e { y i , x i , z i } \boldsymbol w_i =unique \{y_i,\boldsymbol x _i,\boldsymbol z_i\} wi=unique{yi,xi,zi}为渐进独立平稳过程;其中unique表示这些变量不存在重叠。
2.3 工具变量正交性
既然是工具变量,至少需要符号前定变量条件,即工具变量与同期扰动项不相关;设 L L L维向量 g i = z i ε i \boldsymbol g_i = \boldsymbol z_i \varepsilon_i gi=ziεi,其期望为 E ( g i ) = E ( z i ε i ) = 0 E(\boldsymbol g_i) = E(\boldsymbol z_i \varepsilon_i)=0 E(gi)=E(ziεi)=0
2.4 满秩条件
矩阵 E ( z i x i ′ ) E(\boldsymbol z_i \boldsymbol x_i') E(zixi′)列满秩,即 r a n k ( E ( z i x i ′ ) ) = K rank(E(\boldsymbol z_i \boldsymbol x_i')) =K rank(E(zixi′))=K这里 L > K L>K L>K,并记 Σ Z X ≡ E ( z i x i ′ ) \boldsymbol{\Sigma}_{Z X} \equiv \mathrm{E}\left(z_{i} \boldsymbol{x}_{i}^{\prime}\right) ΣZX≡E(zixi′)
2.5 鞅差分序列
g
i
\boldsymbol g_i
gi为鞅差分序列,其协方差矩阵
S
≡
E
(
g
i
g
i
′
)
=
E
(
ε
i
2
z
i
z
i
′
)
\boldsymbol{S} \equiv \mathrm{E}\left(\boldsymbol{g}_{i} \boldsymbol{g}_{i}^{\prime}\right)=\mathrm{E}\left(\varepsilon_{i}^{2} \boldsymbol{z}_{i} z_{i}^{\prime}\right)
S≡E(gigi′)=E(εi2zizi′)
可逆
2.6 四阶矩条件
关于解释变量 x x x的四阶矩条件 E [ ( x i k z i j ) 2 ] \mathrm{E}\left[\left(x_{i k} z_{i j}\right)^{2}\right] E[(xikzij)2]存在其有限, ∀ i , j , k \forall i,j,k ∀i,j,k
3 GMM推导
设总体矩条件
E
(
g
i
)
=
E
(
z
i
ε
i
)
=
0
\mathrm{E}\left(\boldsymbol{g}_{i}\right)=\mathrm{E}\left(z_{i} \varepsilon_{i}\right)=\mathbf{0}
E(gi)=E(ziεi)=0
的样本矩条件
g
n
(
β
^
)
≡
1
n
∑
i
=
1
n
z
i
(
y
i
−
x
i
′
β
^
)
=
0
\boldsymbol{g}_{n}(\hat{\boldsymbol{\beta}}) \equiv \frac{1}{n} \sum_{i=1}^{n} z_{i}\left(y_{i}-\boldsymbol{x}_{i}^{\prime} \hat{\boldsymbol{\beta}}\right)=\mathbf{0}
gn(β^)≡n1i=1∑nzi(yi−xi′β^)=0
其中
z
i
\boldsymbol z_i
zi的维度为
L
L
L,参数
β
^
\hat {\boldsymbol \beta}
β^的维度为
K
K
K,这里工具变量个数大于内生解释变量个数,即
L
>
K
L>K
L>K。此时无法找到唯一解
β
^
\boldsymbol{\hat\beta}
β^,使得
g
n
(
β
^
)
=
0
\boldsymbol{g}_{n}(\hat{\boldsymbol{\beta}}) =0
gn(β^)=0成立。我们将
g
n
(
β
^
)
\boldsymbol{g}_{n}(\hat{\boldsymbol{\beta}})
gn(β^)转为二次型:如果存在解
β
^
\boldsymbol{\hat\beta}
β^使得
g
n
(
β
^
)
\boldsymbol{g}_{n}(\hat{\boldsymbol{\beta}})
gn(β^)无限接近0,则二次型
(
g
n
(
β
^
)
)
1
×
L
′
(
g
n
(
β
^
)
)
L
×
1
→
0
\left(\boldsymbol{g}_{n}(\hat{\boldsymbol{\beta}})\right)^{\prime}_{1 \times L}\left(\boldsymbol{g}_{n}(\hat{\boldsymbol{\beta}})\right)_{L \times 1} \to 0
(gn(β^))1×L′(gn(β^))L×1→0
二次型还需要一个依赖于样本的随机正定对称矩阵
W
^
L
×
L
\hat W_{L \times L}
W^L×L,且在大样本条件下,
P
lim
n
→
∞
W
^
=
W
P \lim_{n\to \infty} \hat{W} =W
Plimn→∞W^=W,
W
W
W为非随机的对称正定矩阵。定义最小化目标函数
min
β
^
J
(
β
^
,
W
^
)
≡
n
(
g
n
(
β
^
)
)
′
W
^
(
g
n
(
β
^
)
)
\min _{\hat{\beta}} J(\hat{\boldsymbol{\beta}}, \hat{\boldsymbol{W}}) \equiv n\left(\boldsymbol{g}_{n}(\hat{\boldsymbol{\beta}})\right)^{\prime} \hat{\boldsymbol{W}}\left(\boldsymbol{g}_{n}(\hat{\boldsymbol{\beta}})\right)
β^minJ(β^,W^)≡n(gn(β^))′W^(gn(β^))
其中目标函数一定大于0,而
n
n
n是为了方便统计计算,不影响最小值点;定义
G
M
M
GMM
GMM估计量为该问题的最优解,则
β
^
G
M
M
(
W
^
)
≡
argmin
β
^
J
(
β
^
,
W
^
)
\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}}) \equiv \underset{\hat{\boldsymbol{\beta}}}{\operatorname{argmin}} J(\hat{\boldsymbol{\beta}}, \hat{\boldsymbol{W}})
β^GMM(W^)≡β^argminJ(β^,W^)
显然
β
^
\boldsymbol {\hat \beta}
β^是关于权重矩阵
W
^
\hat W
W^的函数,因此选择不同
W
W
W对
β
^
\boldsymbol {\hat \beta}
β^的估计效率也存在差异。
W
^
\hat W
W^的作用是对
L
L
L个矩条件进行赋权,不同矩条件的强弱不同,则对应的方差较小(矩阵
S
=
E
(
g
i
g
i
′
)
\boldsymbol{S}=\mathrm{E}\left(\boldsymbol{g}_{i} \boldsymbol{g}_{i}^{\prime}\right)
S=E(gigi′)对角线元素),此时应在
W
^
\hat W
W^种赋予更大的权重。当然最简单的方法将
W
^
\hat W
W^视为单位阵,即不同矩条件的影响相同。下面是
G
M
M
GMM
GMM估计量推导过程:记
S
Z
X
≡
1
n
∑
i
=
1
n
z
i
x
i
′
,
S
Z
y
≡
1
n
∑
i
=
1
n
z
i
y
i
\boldsymbol{S}_{\mathrm{ZX}} \equiv \frac{1}{n} \sum_{i=1}^{n} \boldsymbol{z}_{i} \boldsymbol{x}_{i}^{\prime}, \quad \boldsymbol{S}_{Z y} \equiv \frac{1}{n} \sum_{i=1}^{n} \boldsymbol{z}_{i} y_{i}
SZX≡n1∑i=1nzixi′,SZy≡n1∑i=1nziyi,则最小化目标函数,
J
(
β
^
,
W
^
)
=
n
(
S
Z
y
−
S
Z
X
β
^
)
′
W
^
(
S
Z
y
−
S
Z
X
β
^
)
=
n
(
S
Z
y
′
−
β
^
′
S
Z
X
′
)
W
^
(
S
Z
y
−
S
Z
X
β
^
)
=
n
(
S
Z
y
′
W
^
−
β
^
′
S
Z
X
′
W
^
)
(
S
Z
y
−
S
Z
X
β
^
)
=
n
(
S
Z
y
′
W
^
S
Z
y
−
β
^
′
S
Z
X
′
W
^
S
Z
y
−
S
Z
y
′
W
^
S
Z
X
β
^
+
β
^
′
S
Z
X
′
W
^
S
Z
X
β
^
)
=
n
(
S
Z
y
′
W
^
S
Z
y
−
2
β
^
′
S
Z
X
′
W
^
S
Z
y
+
β
^
′
S
Z
X
′
W
^
S
Z
X
β
^
)
\begin{aligned} J(\hat{\boldsymbol{\beta}}, \hat{\boldsymbol{W}})&=n\left(\boldsymbol{S}_{Zy}-\boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}}\right)^{\prime} \hat{\boldsymbol{W}}\left(\boldsymbol{S}_{Zy}-\boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}}\right)=n\left(\boldsymbol{S}_{\mathrm{Zy}}^{\prime}-\hat{\boldsymbol{\beta}}^{\prime} \boldsymbol{S}_{Z X}^{\prime}\right) \hat{\boldsymbol{W}}\left(\boldsymbol{S}_{Zy}-\boldsymbol{S}_{ZX} \hat{\boldsymbol{\beta}}\right)\\ &=n\left(\boldsymbol{S}_{\mathrm{Zy}}^{\prime} \hat{\boldsymbol{W}}-\hat{\boldsymbol{\beta}}^{\prime} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}}\right)\left(\boldsymbol{S}_{\mathrm{Zy}}-\boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}}\right)\\ & =n\left(\boldsymbol{S}_{Zy}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Zy}-\hat{\boldsymbol{\beta}}^{\prime} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Zy}-\boldsymbol{S}_{Zy}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}}+\hat{\boldsymbol{\beta}}^{\prime} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}}\right)\\ & = n\left(\boldsymbol{S}_{Z y}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Zy}-2 \hat{\boldsymbol{\beta}}^{\prime} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Zy}+\hat{\boldsymbol{\beta}}^{\prime} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}}\right) \end{aligned}
J(β^,W^)=n(SZy−SZXβ^)′W^(SZy−SZXβ^)=n(SZy′−β^′SZX′)W^(SZy−SZXβ^)=n(SZy′W^−β^′SZX′W^)(SZy−SZXβ^)=n(SZy′W^SZy−β^′SZX′W^SZy−SZy′W^SZXβ^+β^′SZX′W^SZXβ^)=n(SZy′W^SZy−2β^′SZX′W^SZy+β^′SZX′W^SZXβ^)
其中
(
β
^
′
S
Z
X
′
W
^
S
Z
y
)
′
=
S
x
y
′
W
^
S
Z
X
β
^
\left(\hat{\boldsymbol{\beta}}^{\prime} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Zy}\right)^{\prime}=\boldsymbol{S}_{xy}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}}
(β^′SZX′W^SZy)′=Sxy′W^SZXβ^
对向量
β
^
\boldsymbol {\hat \beta}
β^求微分得
∂
J
(
β
^
,
W
^
)
∂
β
^
=
n
(
−
2
S
Z
X
′
W
^
S
Z
y
+
2
S
Z
X
′
W
^
S
Z
X
β
^
)
=
0
\frac{\partial J(\hat{\boldsymbol{\beta}}, \hat{\boldsymbol{W}})}{\partial \hat{\boldsymbol{\beta}}}=n\left(-2 \boldsymbol{S}_{ZX}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Zy}+2 \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}}\right)=0
∂β^∂J(β^,W^)=n(−2SZX′W^SZy+2SZX′W^SZXβ^)=0
整理
S
Z
X
′
W
^
S
Z
X
β
^
=
S
z
X
′
W
^
S
Z
y
\boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}}=\boldsymbol{S}_{z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Zy}
SZX′W^SZXβ^=SzX′W^SZy
根据假定2.4以及
W
^
\hat{W}
W^正定对称,解得
β
^
G
M
M
(
W
^
)
=
(
S
Z
X
′
W
^
S
Z
X
)
−
1
S
Z
X
′
W
^
S
Z
y
\hat{\boldsymbol{\beta}}_{GMM}(\hat{\boldsymbol{W}})=\left(\boldsymbol{S}_{ZX}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{ZX}\right)^{-1} \boldsymbol{S}_{ZX}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Zy}
β^GMM(W^)=(SZX′W^SZX)−1SZX′W^SZy
在大样本条件下
(
S
Z
X
′
W
^
S
Z
X
)
−
1
\left(\boldsymbol{S}_{ZX}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{ZX}\right)^{-1}
(SZX′W^SZX)−1满秩。在恰好识别
S
Z
X
\boldsymbol{S}_{\mathrm{ZX}}
SZX为
K
×
K
K \times K
K×K维仿阵,可逆则
β
^
G
M
M
(
W
^
)
=
S
Z
X
−
1
W
^
−
1
S
Z
X
′
−
1
S
Z
X
′
W
^
⏟
=
I
S
Z
y
=
S
Z
X
−
1
S
Z
y
=
β
^
I
V
\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}})=\boldsymbol{S}_{Z X}^{-1} \underbrace{\hat{\boldsymbol{W}}^{-1} \boldsymbol{S}_{\mathrm{ZX}}^{\prime-1} \boldsymbol{S}_{\mathrm{ZX}}^{\prime} \hat{\boldsymbol{W}}}_{=\boldsymbol{I}} \boldsymbol{S}_{Z_{y}}=\boldsymbol{S}_{Z X}^{-1} \boldsymbol{S}_{Z y}=\hat{\boldsymbol{\beta}}_{\mathrm{IV}}
β^GMM(W^)=SZX−1=I
W^−1SZX′−1SZX′W^SZy=SZX−1SZy=β^IV
即在恰好识别条件下,
G
M
M
GMM
GMM估计量与
I
V
IV
IV估计量等价。因此只有在过度识别条件下,才能用
G
M
M
GMM
GMM方法
4 大样本性质
4.1 一致性
在大样本条件下,GMM估计量
plim
n
→
∞
β
^
G
M
M
(
W
^
)
=
β
\operatorname{plim}_{n \rightarrow \infty} \hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}})=\boldsymbol{\beta}
plimn→∞β^GMM(W^)=β
收敛于总体回归参数
β
\boldsymbol \beta
β。证明如下:
β
^
G
M
M
(
W
^
)
\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}})
β^GMM(W^)的抽样误差为
β
^
G
M
M
(
W
^
)
−
β
=
(
S
Z
X
′
W
^
S
Z
X
)
−
1
S
Z
X
′
W
^
(
1
n
∑
i
=
1
n
z
i
y
i
)
−
β
=
(
S
Z
X
′
W
^
S
Z
X
)
−
1
S
Z
X
′
W
^
(
1
n
∑
i
=
1
n
z
i
(
x
i
′
β
+
ε
i
)
)
−
β
=
(
S
Z
X
′
W
^
S
Z
X
)
−
1
S
Z
X
′
W
^
(
S
Z
X
β
+
1
n
∑
i
=
1
n
z
i
ε
i
)
−
β
=
(
S
Z
X
′
W
^
S
Z
X
)
−
1
S
Z
X
′
W
^
g
‾
\begin{aligned} \hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}})-\boldsymbol{\beta} &=\left(\boldsymbol{S}_{\mathrm{ZX}}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{\mathrm{ZX}}\right)^{-1} \boldsymbol{S}_{\mathrm{ZX}}^{\prime} \hat{\boldsymbol{W}}\left(\frac{1}{n} \sum_{i=1}^{n} z_{i} y_{i}\right)-\boldsymbol{\beta} \\ &=\left(\boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X}\right)^{-1} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}}\left(\frac{1}{n} \sum_{i=1}^{n} z_{i}\left(\boldsymbol{x}_{i}^{\prime} \boldsymbol{\beta}+\varepsilon_{i}\right)\right)-\boldsymbol{\beta} \\ &=\left(\boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X}\right)^{-1} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}}\left(\boldsymbol{S}_{\mathrm{ZX}} \boldsymbol{\beta}+\frac{1}{n} \sum_{i=1}^{n} z_{i} \varepsilon_{i}\right)-\boldsymbol{\beta} \\ &=\left(\boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X}\right)^{-1} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \overline{\boldsymbol{g}} \end{aligned}
β^GMM(W^)−β=(SZX′W^SZX)−1SZX′W^(n1i=1∑nziyi)−β=(SZX′W^SZX)−1SZX′W^(n1i=1∑nzi(xi′β+εi))−β=(SZX′W^SZX)−1SZX′W^(SZXβ+n1i=1∑nziεi)−β=(SZX′W^SZX)−1SZX′W^g
其中
g
‾
≡
1
n
∑
i
=
1
n
g
i
,
g
i
≡
z
i
ε
i
\overline{\boldsymbol{g}} \equiv \frac{1}{n} \sum_{i=1}^{n} \boldsymbol{g}_{i}, \boldsymbol{g}_{i} \equiv \boldsymbol{z}_{i} \varepsilon_{i}
g≡n1∑i=1ngi,gi≡ziεi;
(
S
Z
X
′
W
^
S
Z
X
)
−
1
⟶
p
(
Σ
Z
X
′
W
Σ
Z
X
)
−
1
\left(\boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X}\right)^{-1} \stackrel{p}{\longrightarrow}\left(\boldsymbol{\Sigma}_{Z X}^{\prime} \boldsymbol{W} \boldsymbol{\Sigma}_{Z X}\right)^{-1}
(SZX′W^SZX)−1⟶p(ΣZX′WΣZX)−1;
S
Z
X
′
W
^
⟶
p
Σ
Z
X
′
W
\boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \stackrel{p}{\longrightarrow} \boldsymbol{\Sigma}_{Z X}^{\prime} \boldsymbol{W}
SZX′W^⟶pΣZX′W;
g
‾
⟶
p
E
(
g
i
)
=
E
(
z
i
ε
i
)
=
0
\overline{\boldsymbol{g}} \stackrel{p}{\longrightarrow} \mathrm{E}\left(\boldsymbol{g}_{i}\right)=\mathrm{E}\left(\boldsymbol{z}_{i} \varepsilon_{i}\right)=\mathbf{0}
g⟶pE(gi)=E(ziεi)=0;故
β
^
G
M
M
(
W
^
)
−
β
⟶
p
0
\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}})-\boldsymbol{\beta} \stackrel{p}{\longrightarrow} \mathbf{0}
β^GMM(W^)−β⟶p0
4.2 渐进正态性
在假定2.5(鞅差分序列假定)条件下,
n
(
β
^
G
M
M
−
β
)
⟶
d
N
(
0
,
Avar
(
β
^
G
M
M
)
)
\sqrt{n}\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}-\boldsymbol{\beta}\right) \stackrel{d}{\longrightarrow} N\left(\mathbf{0}, \operatorname{Avar}\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}\right)\right)
n(β^GMM−β)⟶dN(0,Avar(β^GMM))
其中
Avar
(
β
^
G
M
M
)
=
(
Σ
Z
X
′
W
Σ
Z
X
′
)
−
1
Σ
Z
X
W
S
W
Σ
Z
X
(
Σ
Z
X
′
W
Σ
Z
X
)
−
1
\operatorname{Avar}\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}\right)=\left(\Sigma_{Z X}^{\prime} \boldsymbol{W} \boldsymbol{\Sigma}_{Z X}^{\prime}\right)^{-1} \boldsymbol{\Sigma}_{Z X} \boldsymbol{W} \boldsymbol{S} \boldsymbol{W} \boldsymbol{\Sigma}_{\mathrm{ZX}}\left(\boldsymbol{\Sigma}_{Z X}^{\prime} \boldsymbol{W} \boldsymbol{\Sigma}_{\mathrm{ZX}}\right)^{-1}
Avar(β^GMM)=(ΣZX′WΣZX′)−1ΣZXWSWΣZX(ΣZX′WΣZX)−1
S = E ( g i g i ′ ) = E ( ε i 2 z i z i ′ ) , Σ Z X ≡ E ( z i x i ′ ) \boldsymbol{S}=\mathrm{E}\left(\boldsymbol{g}_{i} \boldsymbol{g}_{i}^{\prime}\right)=\mathrm{E}\left(\varepsilon_{i}^{2} \boldsymbol{z}_{i} \boldsymbol z_{i}^{\prime}\right), \quad \boldsymbol{\Sigma}_{Z X} \equiv \mathrm{E}\left(\boldsymbol z_{i} \boldsymbol{x}_{i}^{\prime}\right) S=E(gigi′)=E(εi2zizi′),ΣZX≡E(zixi′)
证明如下:抽样误差、
β
^
G
M
M
(
W
^
)
−
β
=
(
S
Z
X
′
W
^
S
Z
X
)
−
1
S
Z
X
′
W
^
g
‾
\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}})-\boldsymbol{\beta}=\left(\boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X}\right)^{-1} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \overline{\boldsymbol{g}}
β^GMM(W^)−β=(SZX′W^SZX)−1SZX′W^g
故
n
(
β
^
G
M
M
(
W
^
)
−
β
)
=
(
S
Z
X
′
W
^
S
Z
X
)
−
1
S
Z
X
′
W
^
(
n
g
‾
)
\sqrt{n}\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}})-\boldsymbol{\beta}\right)=\left(\boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X}\right)^{-1} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}}(\sqrt{n} \overline{\boldsymbol{g}})
n(β^GMM(W^)−β)=(SZX′W^SZX)−1SZX′W^(ng)
在假定2.5,利用中心极限定理
n
g
‾
⟶
d
N
(
0
,
S
)
\sqrt{n} \overline{\boldsymbol{g}} \stackrel{d}{\longrightarrow} N(\mathbf{0}, \boldsymbol{S})
ng⟶dN(0,S)
这里
S
≡
E
(
g
i
g
i
′
)
=
E
(
ε
i
2
z
i
z
i
′
)
\boldsymbol{S} \equiv \mathrm{E}\left(\boldsymbol{g}_{i} \boldsymbol{g}_{i}^{\prime}\right)=\mathrm{E}\left(\varepsilon_{i}^{2} \boldsymbol{z}_{i} \boldsymbol{z}_{i}^{\prime}\right)
S≡E(gigi′)=E(εi2zizi′);于是
n
(
β
^
G
M
M
(
W
^
)
−
β
)
⟶
d
N
(
0
,
Avar
(
β
^
G
M
M
)
)
\sqrt{n}\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}})-\boldsymbol{\beta}\right)\stackrel{d}{\longrightarrow} N\left(\mathbf{0}, \operatorname{Avar}\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}\right)\right)
n(β^GMM(W^)−β)⟶dN(0,Avar(β^GMM))
由于
(
S
Z
X
′
W
^
S
Z
X
)
−
1
⟶
p
(
Σ
Z
X
′
W
Σ
Z
X
)
−
1
\left(\boldsymbol{S}_{\mathrm{ZX}}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X}\right)^{-1} \stackrel{p}{\longrightarrow}\left(\boldsymbol{\Sigma}_{Z X}^{\prime} \boldsymbol{W} \boldsymbol{\Sigma}_{Z X}\right)^{-1}
(SZX′W^SZX)−1⟶p(ΣZX′WΣZX)−1;
S
Z
X
′
W
^
⟶
p
Σ
Z
X
′
W
\boldsymbol{S}_{Z X}^{\prime} \hat{W} \stackrel{p}{\longrightarrow} \Sigma_{Z X}^{\prime} \boldsymbol{W}
SZX′W^⟶pΣZX′W;故
Avar
(
β
^
G
M
M
)
=
(
Σ
Z
X
′
W
Σ
Z
X
)
−
1
Σ
Z
X
′
W
S
W
Σ
Z
X
(
Σ
Z
X
′
W
Σ
Z
X
)
−
1
\operatorname{Avar}\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}\right)=\left(\Sigma_{Z X}^{\prime} \boldsymbol{W} \boldsymbol{\Sigma}_{Z X}\right)^{-1} \boldsymbol{\Sigma}_{Z X}^{\prime} \boldsymbol{W} \boldsymbol{S} \boldsymbol{W} \boldsymbol{\Sigma}_{Z X}\left(\boldsymbol{\Sigma}_{Z X}^{\prime} \boldsymbol{W} \boldsymbol{\Sigma}_{Z X}\right)^{-1}
Avar(β^GMM)=(ΣZX′WΣZX)−1ΣZX′WSWΣZX(ΣZX′WΣZX)−1
为夹心估计量。
5 最优权重矩阵与估计
在假定2.1,2.2与2.6条件下,对于
β
\boldsymbol \beta
β的任意一致估计量
β
^
\boldsymbol{ \hat \beta}
β^,其残差为
e
i
≡
y
i
−
x
i
′
β
^
e_{i} \equiv y_{i}-\boldsymbol{x}_{i}^{\prime} \hat{\boldsymbol{\beta}}
ei≡yi−xi′β^;则
s
2
≡
1
n
∑
i
=
1
n
e
i
2
s^{2} \equiv \frac{1}{n} \sum_{i=1}^{n} e_{i}^{2}
s2≡n1∑i=1nei2是总体回归函数随机扰动项方差
σ
2
≡
E
(
ε
i
2
)
\sigma^{2} \equiv \mathrm{E}\left(\varepsilon_{i}^{2}\right)
σ2≡E(εi2)的一致估计量;且
S
^
≡
1
n
∑
i
=
1
n
e
i
2
z
i
z
i
′
\hat{S} \equiv \frac{1}{n} \sum_{i=1}^{n} e_{i}^{2} z_{i} z_{i}^{\prime}
S^≡n1∑i=1nei2zizi′也是
S
≡
E
(
ε
i
2
z
i
z
i
′
)
\boldsymbol{S} \equiv \mathrm{E}\left(\varepsilon_{i}^{2} z_{i} z_{i}^{\prime}\right)
S≡E(εi2zizi′)的一致估计量。经证明,使
Avar
(
β
^
G
M
M
)
\operatorname{Avar}\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}\right)
Avar(β^GMM)最小化的最优权重矩阵即为
W
^
=
S
^
−
1
\hat{\boldsymbol{W}}=\hat{\boldsymbol{S}}^{-1}
W^=S^−1
为了得到最优权重矩阵,需要得到关于
β
\boldsymbol \beta
β的一致估计量。显然两阶段最小二乘法(2SLS)能得到参数一致估计量(尽管可能不是最优效率的);并计算残差估计权重矩阵
W
^
=
S
^
−
1
≡
(
1
n
∑
i
=
1
n
e
i
2
z
i
z
i
′
)
−
1
\hat{\boldsymbol{W}} = \hat{\boldsymbol{S}}^{-1} \equiv (\frac{1}{n} \sum_{i=1}^{n} e_{i}^{2} \boldsymbol{z}_{i} \boldsymbol{z}_{i}^{\prime})^{-1}
W^=S^−1≡(n1i=1∑nei2zizi′)−1
将
W
^
\hat{\boldsymbol{W}}
W^代入目标函数最小化
J
(
β
^
,
S
^
−
1
)
J\left(\hat{\boldsymbol{\beta}}, \hat{\boldsymbol{S}}^{-1}\right)
J(β^,S^−1),即可得到
β
^
G
M
M
(
S
^
−
1
)
\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}\left(\hat{\boldsymbol{S}}^{-1}\right)
β^GMM(S^−1)。上述方法称为两步GMM;另一种方法在两步GMM基础上得到的样本残差再次作为权重矩阵
W
^
\hat{\boldsymbol{W}}
W^的估计量,最小化目标函数
J
(
β
^
,
S
^
−
1
)
J\left(\hat{\boldsymbol{\beta}}, \hat{\boldsymbol{S}}^{-1}\right)
J(β^,S^−1)直至参数收敛为止。
6 同方差情形
GMM估计适合非球形扰动假设(异方差与自相关)情形,对于同方差情形
E
(
ε
i
2
∣
z
i
)
=
σ
2
>
0
\mathrm{E}\left(\varepsilon_{i}^{2} \mid \boldsymbol z_{i}\right)=\sigma^{2}>0
E(εi2∣zi)=σ2>0,利用迭代期望公式
S
≡
E
(
z
i
z
i
′
ε
i
2
)
=
E
z
i
E
(
z
i
z
i
′
ε
i
2
∣
z
i
)
=
E
z
i
[
z
i
z
i
′
E
(
ε
i
2
∣
z
i
)
]
=
σ
2
E
(
z
i
z
i
′
)
\boldsymbol{S} \equiv \mathrm{E}\left(\boldsymbol z_{i} \boldsymbol z_{i}^{\prime} \boldsymbol \varepsilon_{i}^{2}\right)=\mathrm{E}_{\boldsymbol z_{i}} \mathrm{E}\left(\boldsymbol z_{i} \boldsymbol z_{i}^{\prime} \boldsymbol \varepsilon_{i}^{2} \mid \boldsymbol z_{i}\right)=\mathrm{E}_{\boldsymbol z_{i}}\left[\boldsymbol z_{i} \boldsymbol z_{i}^{\prime} \mathrm{E}\left(\boldsymbol \varepsilon_{i}^{2} \mid \boldsymbol z_{i}\right)\right]=\sigma^{2} \mathrm{E}\left(\boldsymbol z_{i}\boldsymbol z_{i}^{\prime}\right)
S≡E(zizi′εi2)=EziE(zizi′εi2∣zi)=Ezi[zizi′E(εi2∣zi)]=σ2E(zizi′)
此时
S
~
≡
s
2
S
Z
Z
\tilde{\boldsymbol{S}} \equiv s^{2} \boldsymbol{S}_{Z Z}
S~≡s2SZZ是
S
\boldsymbol S
S的一致估计量,其中
S
Z
Z
≡
1
n
Z
′
Z
\boldsymbol{S}_{Z Z} \equiv \frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{Z}
SZZ≡n1Z′Z。将
S
~
−
1
=
(
s
2
S
Z
Z
)
−
1
\tilde{\boldsymbol{S}}^{-1}=\left(s^{2} \boldsymbol{S}_{Z Z}\right)^{-1}
S~−1=(s2SZZ)−1作为最优权重矩阵,得到
β
^
G
M
M
(
S
~
−
1
)
=
(
S
Z
X
′
(
s
2
S
Z
Z
)
−
1
S
Z
X
)
−
1
S
Z
X
′
(
s
2
S
Z
Z
)
−
1
S
Z
y
=
(
S
Z
X
′
S
Z
Z
−
1
S
Z
X
)
−
1
S
Z
X
′
S
Z
Z
−
1
S
Z
y
\begin{aligned} \hat{\boldsymbol{\beta}}_{\mathrm{GMM}}\left(\tilde{\boldsymbol{S}}^{-1}\right) &=\left(\boldsymbol{S}_{Z X}^{\prime}\left(s^{2} \boldsymbol{S}_{Z Z}\right)^{-1} \boldsymbol{S}_{Z X}\right)^{-1} \boldsymbol{S}_{Z X}^{\prime}\left(s^{2} \boldsymbol{S}_{Z Z}\right)^{-1} \boldsymbol{S}_{Z y} \\ &=\left(\boldsymbol{S}_{Z X}^{\prime} \boldsymbol{S}_{Z Z}^{-1} \boldsymbol{S}_{Z X}\right)^{-1} \boldsymbol{S}_{Z X}^{\prime} \boldsymbol{S}_{Z Z}^{-1} \boldsymbol{S}_{Z y} \end{aligned}
β^GMM(S~−1)=(SZX′(s2SZZ)−1SZX)−1SZX′(s2SZZ)−1SZy=(SZX′SZZ−1SZX)−1SZX′SZZ−1SZy
其中
S
Z
X
≡
1
n
Z
′
X
,
S
Z
Z
≡
1
n
Z
′
Z
,
S
Z
y
≡
1
n
Z
′
y
\boldsymbol{S}_{Z X} \equiv \frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{X}, \quad \boldsymbol{S}_{Z Z} \equiv \frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{Z}, \quad \boldsymbol{S}_{Z y} \equiv \frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{y}
SZX≡n1Z′X,SZZ≡n1Z′Z,SZy≡n1Z′y,故
β
^
G
M
M
(
S
~
−
1
)
=
(
1
n
X
′
Z
⋅
n
(
Z
′
Z
)
−
1
⋅
1
n
Z
′
X
)
−
1
1
n
X
′
Z
⋅
n
(
Z
′
Z
)
−
1
1
n
Z
′
y
=
(
X
′
Z
(
Z
′
Z
)
−
1
Z
′
X
)
−
1
X
′
Z
(
Z
′
Z
)
−
1
Z
′
y
≡
β
^
2
S
L
\begin{aligned} \hat{\boldsymbol{\beta}}_{\mathrm{GMM}}\left(\tilde{\boldsymbol{S}}^{-1}\right) &=\left(\frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{Z} \cdot n\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \cdot \frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right)^{-1} \frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{Z} \cdot n\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{y} \\ &=\left(\boldsymbol{X}^{\prime} \boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\prime} \boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{y} \equiv \hat{\boldsymbol{\beta}}_{2 \mathrm{SL}} \end{aligned}
β^GMM(S~−1)=(n1X′Z⋅n(Z′Z)−1⋅n1Z′X)−1n1X′Z⋅n(Z′Z)−1n1Z′y=(X′Z(Z′Z)−1Z′X)−1X′Z(Z′Z)−1Z′y≡β^2SL
在同方差假设下两步GMM估计等价于2SLS估计;此外,权重矩阵不需要第一步估计,只需令
S
^
−
1
=
S
Z
Z
−
1
\hat{\boldsymbol{S}}^{-1}=\boldsymbol{S}_{Z Z}^{-1}
S^−1=SZZ−1;故2SLS也称为一步GMM
7 过度识别检验
GMM估计适用于工具变量过度识别情形(工具变量个数 > 内生解释变量个数),如果工具变量都是外生的,则目标函数
J
(
β
^
G
M
M
,
S
^
−
1
)
J\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}, \hat{\boldsymbol{S}}^{-1}\right)
J(β^GMM,S^−1)距离
0
0
0应该不远;反之,若某些工具变量存在内生性,目标函数
J
(
β
^
G
M
M
,
S
^
−
1
)
J\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}, \hat{\boldsymbol{S}}^{-1}\right)
J(β^GMM,S^−1)可能离0的距离更远。因此
J
(
β
^
G
M
M
,
S
^
−
1
)
J\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}, \hat{\boldsymbol{S}}^{-1}\right)
J(β^GMM,S^−1)可以作为过度识别的统计量:
J
(
β
^
G
M
M
,
S
^
−
1
)
⟶
d
χ
2
(
L
−
K
)
J\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}, \hat{\boldsymbol{S}}^{-1}\right) \stackrel{d}{\longrightarrow} \chi^{2}(L-K)
J(β^GMM,S^−1)⟶dχ2(L−K)
其中
(
L
−
K
)
(L-K)
(L−K)表示过度识别的约束个数。原假设为所有工具变量均外生。在同方差假设下,
J
(
β
^
G
M
M
,
S
^
−
1
)
J\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}, \hat{\boldsymbol{S}}^{-1}\right)
J(β^GMM,S^−1)与Sargan统计量相同。
8 非正交性识别
如果拒绝所有变量均外生,则需要进一步识别出哪些工具变量与扰动项存在相关性或非正交性,设
L
L
L维度的工具变量
z
i
\boldsymbol z_i
zi种前
L
1
(
L
1
≥
K
)
L_1(L_1 \ge K)
L1(L1≥K)个工具变量满足外生性,后
L
−
L
1
L-L_1
L−L1个工具变量存在非正交性。分别计算
L
L
L个工具变量与
L
−
L
1
L-L_1
L−L1个工具变量的
J
J
J统计值,并作差构造
C
C
C统计量(或GMM距离,或Sargan差)
C
≡
J
−
J
1
⟶
d
χ
2
(
L
−
L
1
)
C \equiv J-J_{1} \stackrel{d}{\longrightarrow} \chi^{2}\left(L-L_{1}\right)
C≡J−J1⟶dχ2(L−L1)
L
−
L
1
L-L_1
L−L1为不满足外生性工具变量个数。
9 自相关情形
当存在自相关时(时间序列)也可以用GMM方法,在估计时采用自相关异方差稳健标准误推断即可。
参考文献
陈强.高级计量经济学[M].高等教育出版社