一篇文章搞懂：岭回归和Lasso回归

最新推荐文章于 2025-03-22 08:51:39 发布

狂奔的菜鸡

最新推荐文章于 2025-03-22 08:51:39 发布

阅读量1.1w

点赞数 13

分类专栏：机器学习文章标签：机器学习正则化

本文链接：https://blog.csdn.net/weixin_43786241/article/details/108735174

版权

机器学习专栏收录该内容

22 篇文章

订阅专栏

岭回归

当样本特征很多，而样本数相对较少时，上式很容易陷入过拟合。为了缓解过拟合问题，可对上式引入正则化项，若使用 L2 范数正则化（关于L1、L2范数正则化可以看我的另一篇文章），则有：
在这里插入图片描述
其中正则化参数 λ>0，上式称为 “岭回归” (ridge regression) ，通过引入 L2 范数正则化，确能显著降低过拟合的风险。

当线性回归过拟合时，权重系数 $w_j$ 就会非常的大。岭回归（Ridge Regression）可以理解为在线性回归的损失函数的基础上，加入一个L2正则项，来限制权重 $w$ 不要过大。通过确定λ的值可以使得模型在偏差和方差（关于偏差方差可以看我的另一篇博客机器学习中“模型误差”的总结）之间达到平衡，随着λ的增大，模型的方差减小，偏差增大。

岭回归一般写成如下式子形式：
$Loss=L_0+ \dfrac{\lambda}{2n}\sum w^2$

$\lambda$ 为正则项系数， $n$ 为训练集大小， $\dfrac{1}{2}$ 是为了求导方便， $w$ 为参数。

现在从数学方面理解一下为什么L2正则项的加入，能够限制权重 $w$ 不要过大！
假设一个回归模型的损失函数为：
$Loss=\sum (y-wx_i)+ \dfrac{\lambda}{2n}\sum w^2$
对参数 $w$ 进行求导：
在这里插入图片描述

如果不加L2正则化， $XX^T$ 为0时，参数趋于无限大，加了正则化后就会降低这个风险！（数学太有用了，基础科学呀）

Lasso回归

将正则化项中的 L2 范数替换为 L1范数，就是Lasso回归：
在这里插入图片描述
L1不仅有助于降低过拟合风险还会带来一个额外的好处：它比后者更易于获得"稀疏" (sparse)解，即它求得的 $w$ 会有更少的非零分量。

因此Lasso回归可以进行特征选择，Lasso回归属于嵌入式选择，嵌入式特征选择是将特征选择过程与学习器训练过程融为一体，两者在同一个优化过程中完成，即在学习器训练过程中自动地进行了特征选择。
关于为什么L1正则具有稀疏性的数学推导，可以参考作者Magic 杨的博客，写的很细，这里我也进行一下简单的推导：
在这里插入图片描述