正则化，岭回归Shrinkage，lasso稀疏性推导和论文总结

最新推荐文章于 2025-03-11 14:00:00 发布

Haor.L

最新推荐文章于 2025-03-11 14:00:00 发布

阅读量932

点赞数 2

分类专栏：经典机器学习模型文章标签：机器学习算法线性代数动态规划矩阵

原文链接：https://github.com/Catherine08/AI-paper-reading/blob/master/Regression%20shrinkage%20and%20selection%20via%20the%20lasso%E8%AE%BA%E6%96%87.pdf

版权

经典机器学习模型专栏收录该内容

20 篇文章

订阅专栏

参考原文https://github.com/Catherine08/AI-paper-reading/blob/master/Regression%20shrinkage%20and%20selection%20via%20the%20lasso%E8%AE%BA%E6%96%87.pdf

最小二乘解

这个能用的推导太多了，在此不赘述。
当 $X^{T} X$ 为满秩矩阵或正定矩阵时，可以求得：
$\vec{w}^{*}=\left(X^{T} X\right)^{-1} X^{T} \vec{y}$

但是，在实际问题中， $X^{T} X$ 往往并不是满秩矩阵：自行列向量之间存在高度多重共线
性，或列向量数大于行向量数。这会导致偏回归系数无解或结果无效，为了能够克服这问题，可以使用子集选择将高自相关变量删除，或者选用岭回归也能够避免 $X^{T} X$ 不可逆的情况。

岭回归推导和Shrinkage

岭回归在$X^{T} X$的基础上加上一个较小的λ扰动，从而使得行列式不再为0：
$\vec{w}^{*}=\left(X^{T} X+\lambda I\right)^{-1} X^{T} \vec{y}$

设 OLS （最小二乘回归）的解为 $\bar{w}$ ，岭回归的解为 $\bar{w'}$

$\begin{array}{l} \bar{w'}_{i}=\left(X^{T} X+\lambda I\right)^{-1} X^{T} y \\ =\left(X^{T} X+\lambda I\right)^{-1}\left(X^{T} X\right)\left(X^{T} X\right)^{-1} X^{T} y \\ =\left(X^{T} X+\lambda I\right)^{-1}\left(X^{T} X\right) \bar{w} \\ =\left(X^{T} X+\lambda I\right)^{-1}\left(X^{T} X+\lambda I-\lambda I\right) \bar{w} \\ =\left(I-\lambda\left(X^{T} X+\lambda I\right)^{-1}\right) \bar{w}<\bar{w} \end{array}$
这里就出现了shrinkage。

可以看出， $\bar{w'}$ 是对 $\bar{w}$ 向原点的压缩，并不会出现某一系数为 0 的稀疏解情况。但是，在实际问题中，特征存在冗余，稀疏解有利于找到有用的维度并减少冗余，提预测高鲁棒性和准确性。

Lasso稀疏性推导

Lasso公式：
$\vec{w}^{*}=\arg \min _{\vec{w}^{*}}\left[\sum_{1}^{N}\left(W^{T} \vec{X}_{\iota}-y_{i}\right)^{2}+\lambda \sum_{j=1}^{p+1}\left|w_{j}\right|\right]=\arg \min _{\vec{w}^{*}} \sum_{i=1}^{N}\left(W^{T} \vec{X}_{i}-y_{i}\right)^{2} \\ \sum_{j=1}^{p+1}\left|w_{j}\right| \leq t$
在这里插入图片描述
原文中作者还讨论了：
$\hat{\beta}_{j}=\operatorname{sign}\left(\hat{\beta}_{j}^{0}\right)\left(\left|\hat{\beta}_{j}^{0}\right|-\gamma\right)^{+}$
有兴趣的同学可以去原文看看。