正则化,岭回归Shrinkage,lasso稀疏性推导和论文总结

参考原文https://github.com/Catherine08/AI-paper-reading/blob/master/Regression%20shrinkage%20and%20selection%20via%20the%20lasso%E8%AE%BA%E6%96%87.pdf

最小二乘解

这个能用的推导太多了,在此不赘述。
X T X X^{T} X XTX 为满秩矩阵或正定矩阵时,可以求得:
w ⃗ ∗ = ( X T X ) − 1 X T y ⃗ \vec{w}^{*}=\left(X^{T} X\right)^{-1} X^{T} \vec{y} w =(XTX)1XTy

但是,在实际问题中, X T X X^{T} X XTX往往并不是满秩矩阵:自行列向量之间存在高度多重共线
性,或列向量数大于行向量数。这会导致偏回归系数无解或结果无效,为了能够克服这问题,可以使用子集选择将高自相关变量删除,或者选用岭回归也能够避免 X T X X^{T} X XTX不可逆的情况。

岭回归推导和Shrinkage

岭回归在$X^{T} X$的基础上加上一个较小的λ扰动,从而使得行列式不再为0:
w ⃗ ∗ = ( X T X + λ I ) − 1 X T y ⃗ \vec{w}^{*}=\left(X^{T} X+\lambda I\right)^{-1} X^{T} \vec{y} w =(XTX+λI)1XTy

设 OLS (最小二乘回归)的解为 w ˉ \bar{w} wˉ,岭回归的解为 w ′ ˉ \bar{w'} wˉ

w ′ ˉ i = ( X T X + λ I ) − 1 X T y = ( X T X + λ I ) − 1 ( X T X ) ( X T X ) − 1 X T y = ( X T X + λ I ) − 1 ( X T X ) w ˉ = ( X T X + λ I ) − 1 ( X T X + λ I − λ I ) w ˉ = ( I − λ ( X T X + λ I ) − 1 ) w ˉ < w ˉ \begin{array}{l} \bar{w'}_{i}=\left(X^{T} X+\lambda I\right)^{-1} X^{T} y \\ =\left(X^{T} X+\lambda I\right)^{-1}\left(X^{T} X\right)\left(X^{T} X\right)^{-1} X^{T} y \\ =\left(X^{T} X+\lambda I\right)^{-1}\left(X^{T} X\right) \bar{w} \\ =\left(X^{T} X+\lambda I\right)^{-1}\left(X^{T} X+\lambda I-\lambda I\right) \bar{w} \\ =\left(I-\lambda\left(X^{T} X+\lambda I\right)^{-1}\right) \bar{w}<\bar{w} \end{array} wˉi=(XTX+λI)1XTy=(XTX+λI)1(XTX)(XTX)1XTy=(XTX+λI)1(XTX)wˉ=(XTX+λI)1(XTX+λIλI)wˉ=(Iλ(XTX+λI)1)wˉ<wˉ
这里就出现了shrinkage。

可以看出, w ′ ˉ \bar{w'} wˉ是对 w ˉ \bar{w} wˉ向原点的压缩,并不会出现某一系数为 0 的稀疏解情况。但是,在实际问题中,特征存在冗余,稀疏解有利于找到有用的维度并减少冗余,提预测高鲁棒性和准确性。

Lasso稀疏性推导

Lasso公式:
w ⃗ ∗ = arg ⁡ min ⁡ w ⃗ ∗ [ ∑ 1 N ( W T X ⃗ ι − y i ) 2 + λ ∑ j = 1 p + 1 ∣ w j ∣ ] = arg ⁡ min ⁡ w ⃗ ∗ ∑ i = 1 N ( W T X ⃗ i − y i ) 2 ∑ j = 1 p + 1 ∣ w j ∣ ≤ t \vec{w}^{*}=\arg \min _{\vec{w}^{*}}\left[\sum_{1}^{N}\left(W^{T} \vec{X}_{\iota}-y_{i}\right)^{2}+\lambda \sum_{j=1}^{p+1}\left|w_{j}\right|\right]=\arg \min _{\vec{w}^{*}} \sum_{i=1}^{N}\left(W^{T} \vec{X}_{i}-y_{i}\right)^{2} \\ \sum_{j=1}^{p+1}\left|w_{j}\right| \leq t w =argw min[1N(WTX ιyi)2+λj=1p+1wj]=argw mini=1N(WTX iyi)2j=1p+1wjt
在这里插入图片描述
原文中作者还讨论了:
β ^ j = sign ⁡ ( β ^ j 0 ) ( ∣ β ^ j 0 ∣ − γ ) + \hat{\beta}_{j}=\operatorname{sign}\left(\hat{\beta}_{j}^{0}\right)\left(\left|\hat{\beta}_{j}^{0}\right|-\gamma\right)^{+} β^j=sign(β^j0)(β^j0γ)+
有兴趣的同学可以去原文看看。

总结

对于回归问题,lasso 有两个重要特点:

  1. 对系数进行压缩;
  2. 能特征选择。
    这两个特点解决了 OLS 的无解情况,相比岭回归多了特征选择的作用。
    从另一角度,lasso 可以看作对 OLS 加上 l1 正则化,有控制模型复杂度的作用。
  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Lasso回归和岭回归是常见的线回归的正则化方法,用于解决多重共线问题。 Lasso回归(Least Absolute Shrinkage and Selection Operator Regression)是一种压缩估计方法,可以将一些系数压缩为0,从而实现特征选择和模型简化。Lasso回归的目标函数是加入L1正则化项的最小二乘法,可以通过调整正则化参数来控制系数的稀疏岭回归(Ridge Regression)是一种缩小估计方法,通过加入L2正则化项,可以有效地缓解多重共线问题,同时也会对系数进行缩小。岭回归的目标函数是加入L2正则化项的最小二乘法,可以通过调整正则化参数来控制系数的大小。 应用条件: Lasso回归:适用于特征数量较多,但是只有部分特征对目标变量有显著影响的情况。适用于稀疏较高的数据集。 岭回归:适用于特征数量较多,且特征之间存在较强的相关的情况。适用于稀疏较低的数据集。 区别: 1.正则化项不同:Lasso回归使用L1正则化项,可以实现系数的稀疏岭回归使用L2正则化项,可以缓解多重共线问题。 2.系数估计不同:Lasso回归可以将一些系数压缩为0,从而实现特征选择和模型简化;岭回归只能通过缩小系数的大小来实现模型简化。 3.应用场景不同:Lasso回归适用于稀疏较高的数据集,可以用于特征选择和模型简化;岭回归适用于稀疏较低的数据集,可以缓解多重共线问题。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值