在正式接受一个回归模型之前,我们先谈谈线性回归中的多重共线性(multicolinearity)问题。多重共线性是指特征之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确的情形。由于普通最小二乘估计建立在特征之间相互独立的前提假设下,所以我们必须警惕多重共线性的问题。
比如身高和体重之间呈正相关,如果要使用这两个特征构建回归模型,则将出现多重共线性的问题,所以我们常常使用BMI指数构建模型,BMI指数即体质指数,使用体重除以身高得到,即将两者整合为一个特征。或者在某些情况下,我们需要删除共线性的两个特征中的其中一个,保留另一个。
比如我们对名义型特征进行One-Hot编码时,就可能得到新的两个存在共线性的特征,如图中的 sex_female 和 sex_male , smoke_no 和 smoke_yes 。
从最小二乘的角度来看,最小二乘的参数估计
w
^
=
(
X
T
X
)
−
1
X
T
y
\hat{\boldsymbol{w}} = (\mathbf{X}^{\text{T}} \mathbf{X})^{-1}\mathbf{X}^{\text{T}} \boldsymbol{y}
w^=(XTX)−1XTy,如果特征之间存在较强的共线性,则
∣
X
T
X
∣
≈
0
\vert\mathbf{X}^{\text{T}} \mathbf{X}\vert\approx0
∣XTX∣≈0,得到
(
X
T
X
)
−
1
(\mathbf{X}^{\text{T}} \mathbf{X})^{-1}
(XTX)−1对角线上的值很大,导致参数估计值 的方差增大,对参数的估计变得不准确。