对Lasso可以做特征选择，而Ridge却不行的详细解释

最新推荐文章于 2024-08-13 21:52:54 发布

长路漫漫2021

最新推荐文章于 2024-08-13 21:52:54 发布

阅读量3.1k

点赞数 2

分类专栏： # Machine Learning 文章标签：机器学习正则化惩罚项 Lasso回归 Ridge回归

本文链接：https://blog.csdn.net/xq151750111/article/details/123475162

版权

Machine Learning 专栏收录该内容

26 篇文章 58 订阅

订阅专栏

本文探讨了Ridge回归和Lasso回归的区别，Lasso通过l1范数实现特征选择，能将部分系数置零；而Ridge通过l2范数收缩参数，无法实现变量筛选。通过几何解释和等价优化方程，揭示了Lasso的稀疏解特性及其在模型解释上的优势。

摘要由CSDN通过智能技术生成

为了限制模型参数的数值大小，就在模型原来的目标函数上加上一个惩罚项，这个过程叫做正则化（Regularization）。

如果惩罚项是参数的 $l_2$ 范数，就是岭回归(Ridge Regression)
如果惩罚项是参数的 $l_1$ 范数，就是套索回归（Lasso Regrission）

Ridge是在结构风险最小化的正则化因子上使用模型参数向量的二阶范数形式，Lasso使用的是一阶范数形式。虽然Ridge可以将参数估计值向0进行收缩，但对于任何调优参数值，它都不能将系数取值变为严格的0。尽管某些参数估计值变得非常小以至于可以忽略，但事实上Ridge并没有进行变量选择。这可能对预测精确度来说不是问题，但却对模型解释提出了挑战，尤其在变量个数大的时候。一种流行的用来替代Ridge的模型是“最小绝对收缩与选择算子”模型，通常被称为Lasso。Lasso不仅将参数估计向0收缩，当调优参数足够大时，一些参数估计将直接缩减为零，这可以达到特征选择的作用。这样一来，Lasso回归的结果更易于解释。

可能有人会问从Ridge到Lasso，只是罚函数从二阶范数变成一阶范数，为什么Lasso就能够将参数估计收缩成0而Ridge不能呢？要回答这个问题，我们先看下Lasso和Ridge分别对应的另一版本的等价优化方程。对于Lasso而言，优化下面两个方程是等价的：

$\Sigma_{i=1}^{n}(y_{i}-\beta_{0}-\Sigma_{j=1}^{p}\beta_{j}x_{ij})^{2}+\lambda\Sigma_{j=1}^{p}|\beta_{j}|=RSS+\lambda\Sigma_{j=1}^{p}|\beta_{j}|\\ \underset{\beta}{min}\left\{ \Sigma_{i=1}^{n}\left(y_{i}-\beta_{0}-\Sigma_{j=1}^{p}\beta_{j}x_{ij}\right)^{2}\right\} ,\ \Sigma_{j=1}^{p}|\beta_{j}|\leq s\tag{1}$

也就是说，对每个调优参数 $\lambda$ 的取值，都存在相应的 $s$ 值，使得上面两个方程优化后得到的参数估计相同。类似的，对于Ridge，下面两个方程等价：

$\Sigma_{i=1}^{n}(y_{i}-\beta_{0}-\Sigma_{j=1}^{p}\beta_{j}x_{ij})^{2}+\lambda\Sigma_{j=1}^{p}\beta_{j}^{2}=RSS+\lambda\Sigma_{j=1}^{p}\beta_{j}^{2}\\ \underset{\beta}{min}\left\{ \Sigma_{i=1}^{n}\left(y_{i}-\beta_{0}-\Sigma_{j=1}^{p}\beta_{j}x_{ij}\right)^{2}\right\} ,\ \Sigma_{j=1}^{p}\beta_{j}^{2}\leq s\tag{2}$

当 $p ＝ 2$ 时，Lasso的参数估计是所有满足 $|\beta_1|+|\beta_2|≤s$ 的 $\beta_1$ 和 $\beta_2$ 取值中最小化RSS的。Ridge是估计所有满足 $\beta_1^2+β_2^2\leq s$ 的参数取值中最小化RSS的。当 $s$ 很大时，相应的限制条件几乎是无效的，只要参数估计能够最小化RSS即使绝对值很大也没有问题。只要 $s$ 所定义的区域包含最小二乘解，那么收缩方法得出的参数估计和一般最小二乘回归就相同。相反，如果 $s$ 很小，那么可能的参数取值范围就很有限。

下面看看看看Lasso和Ridge的不同之处

左边是Lasso对应的误差等位线和正方形限制区域，右边是Ridge对应的等位线和圆形限制区域。上面图中围绕在 $\hat{\beta}$ 周围的椭圆表示有相同RSS的参数估计。随着椭圆的扩大，对应的RSS增加。Lasso和Ridge的估计值就是在一定的限制区域下，椭圆不断扩张的过程中和限制区域的第一个接触点。大家想想看，如果有某个参数的估计是0的话，那么这个接触点该在哪里？一定在某条坐标轴上。由于Ridge的限制区域是圆形，所以真正的触点无法落在坐标轴上，可能无限接近，但就是到不了。这就是求之而不可得的数学诠释。所以Ridge无法将参数收缩成0，而Lasso可以。

上面是2个参数的情况。如果参数个数是3的话，那么lasso的限制区域就是一个三位空间的多面体，而ridge的限制区域就是个球。参数个数再增加的话，就得发挥你自己想象力。希望大家理解Lasso可以进行变量选择，而Ridge不行的几何解释。

从代数角度思考，看下面的二维示意图，Lasso的目标函数是非光滑的。我们知道对于非光滑的优化问题，它的最优解要么是在导数为0处，要么就是在不可导的地方，也就是各个角上。对于多维的Lasso，所谓的“角”，就是那些很多特征的系数为0的地方。所以Lasso会给出一个稀疏解，能有特征选择的作用。