对Lasso可以做特征选择,而Ridge却不行的详细解释

本文探讨了Ridge回归和Lasso回归的区别,Lasso通过l1范数实现特征选择,能将部分系数置零;而Ridge通过l2范数收缩参数,无法实现变量筛选。通过几何解释和等价优化方程,揭示了Lasso的稀疏解特性及其在模型解释上的优势。
摘要由CSDN通过智能技术生成

        为了限制模型参数的数值大小,就在模型原来的目标函数上加上一个惩罚项,这个过程叫做正则化(Regularization)。

  • 如果惩罚项是参数的 l 2 l_2 l2范数,就是岭回归(Ridge Regression)
  • 如果惩罚项是参数的 l 1 l_1 l1范数,就是套索回归(Lasso Regrission)

        Ridge是在结构风险最小化的正则化因子上使用模型参数向量的二阶范数形式,Lasso使用的是一阶范数形式。虽然Ridge可以将参数估计值向0进行收缩,但对于任何调优参数值,它都不能将系数取值变为严格的0。尽管某些参数估计值变得非常小以至于可以忽略,但事实上Ridge并没有进行变量选择。这可能对预测精确度来说不是问题,但却对模型解释提出了挑战,尤其在变量个数大的时候。一种流行的用来替代Ridge的模型是“最小绝对收缩与选择算子”模型,通常被称为LassoLasso不仅将参数估计向0收缩,当调优参数足够大时,一些参数估计将直接缩减为零,这可以达到特征选择的作用。这样一来,Lasso回归的结果更易于解释。

        可能有人会问从RidgeLasso,只是罚函数从二阶范数变成一阶范数,为什么Lasso就能够将参数估计收缩成0而Ridge不能呢?要回答这个问题,我们先看下LassoRidge分别对应的另一版本的等价优化方程。对于Lasso而言,优化下面两个方程是等价的:

Σ i = 1 n ( y i − β 0 − Σ j = 1 p β j x i j ) 2 + λ Σ j = 1 p ∣ β j ∣ = R S S + λ Σ j = 1 p ∣ β j ∣ m i n β { Σ i = 1 n ( y i − β 0 − Σ j = 1 p β j x i j ) 2 } ,   Σ j = 1 p ∣ β j ∣ ≤ s (1) \Sigma_{i=1}^{n}(y_{i}-\beta_{0}-\Sigma_{j=1}^{p}\beta_{j}x_{ij})^{2}+\lambda\Sigma_{j=1}^{p}|\beta_{j}|=RSS+\lambda\Sigma_{j=1}^{p}|\beta_{j}|\\ \underset{\beta}{min}\left\{ \Sigma_{i=1}^{n}\left(y_{i}-\beta_{0}-\Sigma_{j=1}^{p}\beta_{j}x_{ij}\right)^{2}\right\} ,\ \Sigma_{j=1}^{p}|\beta_{j}|\leq s\tag{1} Σi=1n(yiβ0Σj=1pβjxij)2+λΣj=1pβj=RSS+λΣj=1pβjβmin{Σi=1n(yiβ0Σj=1pβjxij)2}, Σj=1pβjs(1)

        也就是说,对每个调优参数 λ \lambda λ的取值,都存在相应的 s s s值,使得上面两个方程优化后得到的参数估计相同。类似的,对于Ridge,下面两个方程等价:

Σ i = 1 n ( y i − β 0 − Σ j = 1 p β j x i j ) 2 + λ Σ j = 1 p β j 2 = R S S + λ Σ j = 1 p β j 2 m i n β { Σ i = 1 n ( y i − β 0 − Σ j = 1 p β j x i j ) 2 } ,   Σ j = 1 p β j 2 ≤ s (2) \Sigma_{i=1}^{n}(y_{i}-\beta_{0}-\Sigma_{j=1}^{p}\beta_{j}x_{ij})^{2}+\lambda\Sigma_{j=1}^{p}\beta_{j}^{2}=RSS+\lambda\Sigma_{j=1}^{p}\beta_{j}^{2}\\ \underset{\beta}{min}\left\{ \Sigma_{i=1}^{n}\left(y_{i}-\beta_{0}-\Sigma_{j=1}^{p}\beta_{j}x_{ij}\right)^{2}\right\} ,\ \Sigma_{j=1}^{p}\beta_{j}^{2}\leq s\tag{2} Σi=1n(yiβ0Σj=1pβjxij)2+λΣj=1pβj2=RSS+λΣj=1pβj2βmin{Σi=1n(yiβ0Σj=1pβjxij)2}, Σj=1pβj2s(2)

        当 p = 2 p=2 p2时,Lasso的参数估计是所有满足 ∣ β 1 ∣ + ∣ β 2 ∣ ≤ s |\beta_1|+|\beta_2|≤s β1+β2s β 1 \beta_1 β1 β 2 \beta_2 β2取值中最小化RSS的。Ridge是估计所有满足 β 1 2 + β 2 2 ≤ s \beta_1^2+β_2^2\leq s β12+β22s的参数取值中最小化RSS的。当 s s s很大时,相应的限制条件几乎是无效的,只要参数估计能够最小化RSS即使绝对值很大也没有问题。只要 s s s所定义的区域包含最小二乘解,那么收缩方法得出的参数估计和一般最小二乘回归就相同。相反,如果 s s s很小,那么可能的参数取值范围就很有限。

        下面看看看看LassoRidge的不同之处

        左边是Lasso对应的误差等位线和正方形限制区域,右边是Ridge对应的等位线和圆形限制区域。 上面图中围绕在 β ^ \hat{\beta} β^周围的椭圆表示有相同RSS的参数估计。随着椭圆的扩大,对应的RSS增加。LassoRidge的估计值就是在一定的限制区域下,椭圆不断扩张的过程中和限制区域的第一个接触点。大家想想看,如果有某个参数的估计是0的话,那么这个接触点该在哪里?一定在某条坐标轴上。由于Ridge的限制区域是圆形,所以真正的触点无法落在坐标轴上,可能无限接近,但就是到不了。这就是求之而不可得的数学诠释。所以Ridge无法将参数收缩成0,而Lasso可以。

        上面是2个参数的情况。如果参数个数是3的话,那么lasso的限制区域就是一个三位空间的多面体,而ridge的限制区域就是个球。参数个数再增加的话,就得发挥你自己想象力。希望大家理解Lasso可以进行变量选择,而Ridge不行的几何解释。

        从代数角度思考,看下面的二维示意图,Lasso的目标函数是非光滑的。我们知道对于非光滑的优化问题,它的最优解要么是在导数为0处,要么就是在不可导的地方,也就是各个角上。对于多维的Lasso,所谓的“角”,就是那些很多特征的系数为0的地方。所以Lasso会给出一个稀疏解,能有特征选择的作用。

        以上内容主要整理自:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

长路漫漫2021

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值