人工智能/机器学习基础知识——岭回归、LASSO

最新推荐文章于 2024-05-20 19:08:38 发布

XaiverZ

最新推荐文章于 2024-05-20 19:08:38 发布

阅读量522

点赞数 28

分类专栏：人工智能/机器学习基础知识文章标签：人工智能机器学习岭回归 LASSO

本文链接：https://blog.csdn.net/windgrin_/article/details/137689861

版权

人工智能/机器学习基础知识专栏收录该内容

31 篇文章 0 订阅

订阅专栏

岭回归

Ridge Regression

$\min _{\boldsymbol{w}} \sum_{i=1}^{m}\left(y_{i}-\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}\right)^{2}+\lambda\|\boldsymbol{w}\|_{2}^{2}$
LASSO

Least Absolute Shrinkage and Selection Operator

$\min _{\boldsymbol{w}} \sum_{i=1}^{m}\left(y_{i}-\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}\right)^{2}+\lambda\|\boldsymbol{w}\|_{1}$
$L_1$ 和 $L_2$ 范数正则化都有助于降低过拟合风险，但 $L_1$ 比 $L_2$ 更容易获得稀疏解（Sparse），即它求得的 $w$ 会有更少的非零分量

关于正则化与 $L_1$ 、 $L_2$ 范数的理解
- $w$ 取得稀疏解意味着初始的 $d$ 个特征中仅有对应着 $w$ 的非零分量的特征才会出现在最终模型中，所以，求解 $L_1$ 范数正则化的结果就是得到了仅采用一部分初始特征的模型；换言之，基于 $L_1$ 正则化的学习方法就是一种嵌入式特征选择方法，特征选择过程与学习器训练过程融为一体，同时完成
为什么L1范数比L2范数更容易获得稀疏解？

知乎

图源PRML
- 原优化问题为
  
  $min _{w} E_{D}(w)$
- 加入正则化项后，目标函数（优化问题）变为
  
  $\min _{w} E_{D}(w)+\lambda E_{R}(w)$
  其中， $\lambda$ 为正则化项系数，为超参数
- 实际上，上述优化问题与下述优化问题是完全等价的，即对一个特定的 $\lambda$ 总存在一个 $\eta$ 使这两个问题等价（其实加入正则化项，惩罚模型参数，相当于在优化原目标函数的基础上，对正则化项表达的含模型参数的多项式加上限制，使参数限制在某个范围，与上述式子其实是一样的效果）
  
  $\begin{aligned} &\min _{w} E_{D}(w) \\ &\text { s.t. } E_{R}(w) \leqslant \eta \end{aligned}$
- 基于以上优化问题的转化，根据 $L_1$ 、 $L_2$ 范数的定义，可将限制优化条件以图中橙色区域表示出来
  
  $\|w\|_1 = |w_1| + |w_2| \leq \eta$
  $\|w\|_2 = \sqrt{w_1^2 + w_2^2} \leq \eta$
- 限制优化区域固定，改变经验损失等值线， $L_1$ 范数更易与其“首次”相交于坐标轴上的点（离经验损失中心点越远损失越大，故在满足解集落在限制区域的前提下，离经验损失中心点越近），所以 $L_1$ 范数更易获得稀疏解