1、多重共线性
在此之前我们先解释变量高相关的本质。
多重共线性问题描述的是在线性回归模型中解释变量(X)之间具有高度相关性的现象。当自变量之间存在这种高相关时,会导致模型的参数估计精度降低或难以准确估计。
我们称完全多重共线性情况是指矩阵
X
T
X
{X^T}X
XTX严格不可逆的情况。
在LRM(线性回归模型)中:
构建一个线性回归模型
Y
=
X
β
+
ε
Y = X\beta + \varepsilon
Y=Xβ+ε其中
Y
Y
Y为
n
×
1
n \times 1
n×1的矩阵,
X
X
X为
n
×
p
n \times p
n×p的矩阵,
ε
\varepsilon
ε为误差向量。通过LS(最小二乘估计)可以得到参数估计为
β
^
=
(
X
T
X
)
−
1
X
T
Y
\hat \beta = {({X^T}X)^{ - 1}}{X^T}Y
β^=(XTX)−1XTY从参数估计的表达式中不难发现,当
X
T
X
{X^T}X
XTX的逆不存在的情况下,参数估计值可能不存在。
接着我们分析在
X
X
X具有满秩,而
X
T
X
{X^T}X
XTX可逆时
估计参数的协方差矩阵为:
C
o
v
(
β
^
)
=
σ
2
(
X
T
X
)
−
1
Cov(\hat \beta ) = {\sigma ^2}{({X^T}X)^{ - 1}}
Cov(β^)=σ2(XTX)−1其中
σ
2
\sigma ^2
σ2为误差方差,上式可以改写为:
C
o
v
(
β
^
)
=
σ
2
∑
k
=
1
K
p
k
(
1
/
λ
k
)
p
k
T
Cov(\hat \beta ) = {\sigma ^2}\sum\limits_{k = 1}^K {{p_k}(1/{\lambda _k})} p_k^T
Cov(β^)=σ2k=1∑Kpk(1/λk)pkT
p
p
p为
X
T
X
{X^T}X
XTX的特征向量,
λ
\lambda
λ为
X
T
X
{X^T}X
XTX的特征值。当
X
T
X
{X^T}X
XTX的特征值很小时,回归系数的方差不可避免的增大。
参考文献:Tormod(2001)Understanding the collinearity problem in regression and discriminant analysis
2、多重共线性下的泊松回归
在泊松回归下,响应变量 Y Y Y应服从泊松分布 P 0 ( μ i ) {P_0}({\mu _i}) P0(μi),其中 μ i = e x p ( x i β ) \mu _i=exp(x_i\beta) μi=exp(xiβ)为泊松分布的均值, x i x_i xi为 n × p n \times p n×p的数据矩阵 X X X的第 i i i行, β \beta β为 p × 1 p\times 1 p×1的回归系数。
求解泊松回归模型的参数最常用的方法是最大似然估计法(ML)
首先构建似然函数:
l
(
μ
;
y
)
=
∑
i
=
1
n
y
i
log
(
μ
i
)
−
∑
i
=
1
n
μ
i
−
log
(
∏
i
=
1
n
y
i
!
)
=
∑
i
=
1
n
y
i
log
(
exp
(
x
i
β
)
)
−
∑
i
=
1
n
exp
(
x
i
β
)
−
log
(
∏
i
=
1
n
y
i
!
)
\begin{aligned} l(\boldsymbol{\mu} ; \mathbf{y}) & =\sum_{i=1}^n y_i \log \left(\mu_i\right)-\sum_{i=1}^n \mu_i-\log \left(\prod_{i=1}^n y_{i}!\right) \\ & =\sum_{i=1}^n y_i \log \left(\exp \left(\mathbf{x}_i \boldsymbol{\beta}\right)\right)-\sum_{i=1}^n \exp \left(\mathbf{x}_{\mathbf{i}} \boldsymbol{\beta}\right)-\log \left(\prod_{i=1}^n y_{i}!\right) \end{aligned}
l(μ;y)=i=1∑nyilog(μi)−i=1∑nμi−log(i=1∏nyi!)=i=1∑nyilog(exp(xiβ))−i=1∑nexp(xiβ)−log(i=1∏nyi!)通过以下的等式求解参数估计值:
S
(
β
)
=
∂
l
(
μ
;
y
)
∂
β
=
∑
i
=
1
n
(
y
i
−
exp
(
x
i
β
)
)
x
i
=
0
S(\beta ) = \frac{{\partial l(\mu ;y)}}{{\partial \beta }} = \sum\limits_{i = 1}^n {({y_i} - \exp ({x_i}\beta ))} {x_i} = 0
S(β)=∂β∂l(μ;y)=i=1∑n(yi−exp(xiβ))xi=0由于求解上式是一个非线性问题,通过迭代加权最小二乘算法( iterative weighted least square (IWLS))求解得到:
β
^
M
L
=
(
X
T
W
^
X
)
−
1
X
T
W
^
z
^
{{\hat \beta }_{ML}} = {({X^T}\hat WX)^{ - 1}}{X^T}\hat W\hat z
β^ML=(XTW^X)−1XTW^z^其中
W
^
=
d
i
a
g
[
μ
^
i
]
\hat W=diag[\hat \mu _i]
W^=diag[μ^i],
z
^
\hat z
z^是等式
z
^
i
=
log
(
μ
^
i
)
+
y
i
−
μ
^
i
μ
^
i
{{\hat z}_i} = \log ({{\hat \mu }_i}) + \frac{{{y_i} - {{\hat \mu }_i}}}{{{{\hat \mu }_i}}}
z^i=log(μ^i)+μ^iyi−μ^i构成的向量的第i个元素。ML 估计量是渐近正态分布的,协方差矩阵对应于二阶导数矩阵的倒数:
Cov
(
β
^
M
L
)
=
[
−
E
(
∂
2
I
∂
β
j
∂
β
k
′
)
]
−
1
=
(
X
′
W
^
X
)
−
1
\operatorname{Cov}\left(\hat{\boldsymbol{\beta}}_{\mathbf{M L}}\right)=\left[-E\left(\frac{\partial^2 I}{\partial \beta_j \partial \beta_k^{\prime}}\right)\right]^{-1}=\left(\mathbf{X}^{\prime} \hat{\mathbf{W}} \mathbf{X}\right)^{-1}
Cov(β^ML)=[−E(∂βj∂βk′∂2I)]−1=(X′W^X)−1此外,估计的MSE为:
E
(
L
M
L
2
)
=
E
(
β
^
M
L
−
β
)
′
(
β
^
M
L
−
β
)
=
tr
[
(
X
′
W
^
X
)
−
1
]
=
∑
j
=
1
J
1
λ
j
,
E\left(L_{M L}^2\right)=E\left(\hat{\boldsymbol{\beta}}_{\mathbf{M L}}-\boldsymbol{\beta}\right)^{\prime}\left(\hat{\boldsymbol{\beta}}_{\mathbf{M L}}-\boldsymbol{\beta}\right)=\operatorname{tr}\left[\left(\mathbf{X}^{\prime} \hat{\mathbf{W}} \mathbf{X}\right)^{-1}\right]=\sum_{j=1}^J \frac{1}{\lambda_j},
E(LML2)=E(β^ML−β)′(β^ML−β)=tr[(X′W^X)−1]=j=1∑Jλj1,其中,
λ
j
\lambda_j
λj为
X
T
W
^
X
{X^T}\hat WX
XTW^X矩阵的第j个特征值,
(
L
M
L
2
)
\left(L_{M L}^2\right)
(LML2)表示估计量的损失,当变量间具有高相关时,
X
T
X
X^TX
XTX的特征值较小,导致
E
(
L
M
L
2
)
E\left(L_{M L}^2\right)
E(LML2)增大;通过
X
T
W
^
X
{X^T}\hat WX
XTW^X我们不难发现,在解释变量与叉乘的加权矩阵具有高相关时,将会导致ML估计量的不稳定性和高方差,在这种情况下,很难去解释待估参数。
参考文献:Månsson, K., & Shukur, G. (2011). A Poisson ridge regression estimator. Economic Modelling, 28(4), 1475–1481. doi:10.1016/j.econmod.2011.02.