多重共线性问题

"多重共线性是线性回归中常见的问题,它发生在特征间存在高度相关时,导致模型估计不准确。例如,身高和体重的相关性可能导致模型失真,通常我们通过计算BMI指数来整合这两个特征。在One-Hot编码过程中也可能产生共线性特征。从最小二乘法角度看,共线性会使(XTX)^{-1}
摘要由CSDN通过智能技术生成

在正式接受一个回归模型之前,我们先谈谈线性回归中的多重共线性(multicolinearity)问题。多重共线性是指特征之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确的情形。由于普通最小二乘估计建立在特征之间相互独立的前提假设下,所以我们必须警惕多重共线性的问题。

比如身高和体重之间呈正相关,如果要使用这两个特征构建回归模型,则将出现多重共线性的问题,所以我们常常使用BMI指数构建模型,BMI指数即体质指数,使用体重除以身高得到,即将两者整合为一个特征。或者在某些情况下,我们需要删除共线性的两个特征中的其中一个,保留另一个。

比如我们对名义型特征进行One-Hot编码时,就可能得到新的两个存在共线性的特征,如图中的 sex_female 和 sex_male , smoke_no 和 smoke_yes 。

在这里插入图片描述
从最小二乘的角度来看,最小二乘的参数估计 w ^ = ( X T X ) − 1 X T y \hat{\boldsymbol{w}} = (\mathbf{X}^{\text{T}} \mathbf{X})^{-1}\mathbf{X}^{\text{T}} \boldsymbol{y} w^=(XTX)1XTy,如果特征之间存在较强的共线性,则 ∣ X T X ∣ ≈ 0 \vert\mathbf{X}^{\text{T}} \mathbf{X}\vert\approx0 XTX0,得到 ( X T X ) − 1 (\mathbf{X}^{\text{T}} \mathbf{X})^{-1} (XTX)1对角线上的值很大,导致参数估计值 的方差增大,对参数的估计变得不准确。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值