L1与L2正则化

最新推荐文章于 2024-06-08 16:09:48 发布

风里来，雨里去

最新推荐文章于 2024-06-08 16:09:48 发布

阅读量884

点赞数

分类专栏：机器学习文章标签：正则化 L1范数稀疏性机器学习过拟合

机器学习专栏收录该内容

0 篇文章 0 订阅

订阅专栏

LI与L2正则化

  岭回归的历史可追溯到1943年由A.Tikhonov发表在《苏联科学院院刊》上的一篇文章，我们知道计算机是在1946年发明出来的，由此可见，这是一个历史悠久的算法，至今依旧有生命力，属于经典算法之一。

岭回归，是线性回归的L2正则化方式。本质上是一种回归。

正则化的作用及L1稀疏性

给定数据集D = {(x1,y1),(x2,y2),…,(xm,ym)},其中xϵR^d dimension，yϵR。我们考虑最简单的线性回归模型,以平方误差为损失函数：

在这里插入图片描述
对于正则化不太了解的朋友可以看我这一篇文章《L1与L2正则化》，但是我们这里对于正则化有一些更加深入的理解。
正则化(Regularization)是在被优化的目标函数中，添加一项与常数因子λ相乘(有时候也使用α)的参数，这一项就叫做正则项。我们很容易知道，由于目标函数总是向最小化方向发展，则被加进来的这一项会受到惩罚使之更倾向于小。具体的理解可以参考我的《L1与L2正则化》。以下是线性回归带正则化的目标函数表达式。
带L1正则化的线性回归的目标函数：
在这里插入图片描述
带L2正则化的线性回归的目标函数，也就是我们提到的岭回归：

以上是正则化的感性认识以及其工作原理。我们常用的正则化为L1和L2正则化，也称L1范数正则化与L2范数正则化。这两种正则化都可以用来降低过拟合的风险，但是L1正则化比L2正则化多一个优势在于，其可以更容易获得稀疏(sparse)解，即其会有更少的非零分量。
我举一个直观的例子。假设x仅仅有两个属性，于是根据线性回归的目标函数求解，w都之后有两个分量。即w1与w2，以此为坐标轴，画出一个坐标系。如图所示
在这里插入图片描述
那么我们取在这个(w1,w2)空间里平方误差取值一样的点连成线，就成了我们的平方误差项等值线。再画出L1，L2范数的等值线，即在(w1,w2)空间中L1范数与L2范数取值相同的点的连线，如图所示。我们知道，平方误差等值线与正则化项等值线的交点为带正则化项的线性回归目标函数的解。我们从图中可以看出，平方误差等值线与L1正则化等值线的交点，在坐标轴的频率更高，即w1或w2为0；二平方误差等值线与L2正则化等值线的交点更容易出现在象限中，即w1与w2均不为0。由此可见，采用L1范数正则化比L2范数更容易得到稀疏解。
注意到w取得稀疏解则意味着初始的d个特征中仅有对应着w的非零分量的特征才会出现在最终模型中，所以求得的结果是得到了仅采用一部分初始特征的模型。我们便可以将L1郑泽华的学习方法视为一种特征选择方法，删掉了部分特征(特征为0)，特征选择过程与学习器训练过程融为一体，同时完成。

L1和L2正则的区别，如何选择L1和L2正则？

在0处不可导，怎么处理他们都是可以防止过拟合，降低模型复杂度L1是在loss function后面加上模型参数的1范数（也就是|xi|）L0范数的最小化问题在实际应用中是NP难问题，无法实际应用
L2是在loss function后面加上模型参数的2范数（也就是sigma(xi^{2)），注意L2范数的定义是sqrt(sigma(xi}2))，在正则项上没有添加sqrt根号是为了更加容易优化L1 会产生稀疏的特征L2 会产生更多地特征但是都会接近于0
L1会趋向于产生少量的特征，而其他的特征都是0，而L2会选择更多的特征，这些特征都会接近于0。L1在特征选择时候非常有用，而L2就只是一种规则化而已。
L1对应拉普拉斯分布，L2对应高斯分布，L1偏向于参数稀疏性，L1不可导可以使用近似算法或者ADMM来解决

作者：香橙云子
链接：https://juejin.im/post/5a79ac19f265da4e8a31d098

风里来，雨里去

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
L1与L2正则化

LI与L2正则化岭回归的历史可追溯到1943年由A.Tikhonov发表在《苏联科学院院刊》上的一篇文章，我们知道计算机是在1946年发明出来的，由此可见，这是一个历史悠久的算法，至今依旧有生命力，属于经典算法之一。岭回归，是线性回归的L2正则化方式。本质上是一种回归。正则化的作用及L1稀疏性给定数据集D = {(x1,y1),(x2,y2),…,(xm,ym)},其中xϵR^d d...
复制链接

扫一扫