UA STAT687 线性模型II 最小二乘理论1 普通最小二乘法
Legendre与Gauss在19世纪初提出了最小二乘的思想,1900年Markov证明了最小二乘估计的性质良好,在此之后最小二乘就开始广泛应用于线性模型的估计了。对于线性模型
y = X β + ϵ , E ϵ = 0 , C o v ( ϵ ) = σ 2 I y=X\beta + \epsilon,E\epsilon=0,Cov(\epsilon)=\sigma^2I y=Xβ+ϵ,Eϵ=0,Cov(ϵ)=σ2I
其中 y , ϵ y,\epsilon y,ϵ为 n × 1 n\times 1 n×1的向量, X X X为 n × p n \times p n×p的Design Matrix,如果 r a n k ( X ) ≥ p rank(X)\ge p rank(X)≥p,称这个线性模型为满秩的;否则称之为降秩的。这部分我们将介绍普通最小二乘法(OLS)、带约束的最小二乘法、广义最小二乘法(GLS)、稳健性、两步法、最小二乘法的几何解释以及常用数值算法,这一篇介绍OLS。
参数的OLS估计
OLS的思路是
min β Q = ∥ e ∥ 2 = ( y − X β ) ′ ( y − X β ) = y ′ y − 2 y ′ X β + β ′ X ′ X β \min_{\beta}\ \ Q = \left\| e \right\|^2 = (y-X\beta)'(y-X\beta)=y'y-2y'X\beta+\beta'X'X\beta βmin Q=∥e∥2=(y−Xβ)′(y−Xβ)=y′y−2y′Xβ+β′X′Xβ
计算 Q Q Q关于 β \beta β的梯度
∇ β Q = − 2 X ′ y + 2 X ′ X β = 0 ⇒ X ′ X β = X ′ y \nabla_{\beta} Q=-2X'y+2X'X\beta=0 \Rightarrow X'X\beta = X'y ∇βQ=−2X′y+2X′Xβ=0⇒X′Xβ=X′y
这个方程叫做OLS的正则方程,求解这个方程可以得到系数的OLS估计,并且基于这个方程还可以获得残差的性质。 X ′ y X'y X′y在 X ′ X' X′的列空间中,因此这个方程是相容的,可以用系数矩阵的广义逆表示解:
β ^ = ( X ′ X ) − X ′ y \hat{\beta} = (X'X)^{-}X'y β^=(X′X)−X′y
计算 Q Q Q关于 β \beta β的Hessian矩阵,
H β Q = 2 X ′ X ≥ 0 H_{\beta}Q = 2X'X\ge 0 HβQ=2X′X≥0
因此 β ^ \hat{\beta} β^使 Q Q Q取最小值,并且最小值点唯一。
下面考虑广义逆的确定。假设 r a n k ( X ) ≥ p rank(X)\ge p rank(X)≥p,则 X ′ X X'X X′X是满秩的方阵,
β ^ = ( X ′ X ) − 1 X ′ y \hat{\beta} = (X'X)^{-1}X'y β^=(X′X)−1X′y
假设 r a n k ( X ) < p rank(X)<p rank(X)<p,则 X ′ X X'X X′X降秩,它的逆不存在,此时不存在 β \beta β的线性无偏估计。
证明
假设 A y Ay Ay是线性无偏估计,则 E ( A y ) = A X β = β ⇒ A X = I p ⇒ r a n k ( A X ) = p E(Ay) = AX\beta = \beta \Rightarrow AX = I_p \Rightarrow rank(AX)=p E(Ay)=AXβ=β⇒AX=Ip⇒rank(AX)=p,然而 r a n k ( A X ) ≤ r a n