根据线性回归模型的参数估计公式 β = ( X ′ X ) − 1 X ′ y \beta=(X'X)^{-1}X'y β=(X′X)−1X′y 可知,得到 β \beta β 的前提是 ( X ′ X ) − 1 (X'X)^{-1} (X′X)−1 必须不为零,即可逆。但在实际应用中,可能会出现自变量个数多于样本量,或者自变量间存在多重共线性的情况,此时 X ′ X = 0 X'X=0 X′X=0 ,将无法再根据公式计算出回归系数的估计值 β \beta β.
一、岭回归模型
01 模型概述
为解决多元线性回归模型中可能存在的不可逆问题,提出了岭回归模型。该模型解决思路就是,在线性回归模型的目标函数上添加 l 2 l2 l2正则项(惩罚项)
J ( β ) = ∑ ( y − X β ) 2 + λ ∣ ∣ β ∣ ∣ 2 2 = ∑ ( y − X β ) 2 + ∑ λ β 2 J(\beta)=\sum(y-X\beta)^2+\lambda||\beta||_2^2=\sum(y-X\beta)^2+\sum\lambda\beta^2 J(β)=∑(y−Xβ)2+λ∣∣β∣∣22=∑(y−Xβ)2+∑