02 L1正则化

weixin_45674607

已于 2023-03-11 12:41:59 修改

阅读量98

点赞数

分类专栏： # 压缩与加速技术（01）文章标签：机器学习算法线性代数

于 2023-03-01 22:05:02 首次发布

本文链接：https://blog.csdn.net/weixin_45674607/article/details/129167139

版权

压缩与加速技术（01）专栏收录该内容

2 篇文章 0 订阅

订阅专栏

文章详细介绍了L1正则化的基本形式，包括L1正则化的定义和它如何通过引入参数的绝对值之和来约束模型复杂度。接着，讨论了正则化目标函数的具体形式以及其梯度，指出在最优解的邻域内，目标函数可以进行二次近似。最后，分析了正则化后的目标函数，并展示了当参数为零时，参数值的边界情况，解释了L1正则化如何导致稀疏解。

摘要由CSDN通过智能技术生成

文章目录

基本形式

模型参数 $w$ 的 $L^{1}$ 正则化的一般形式：
$\varOmega(\theta)=||w||_1=\sum_i|w_i|$ 即各个参数的绝对值之和，在这里 $\theta$ 也就是 $w$ 。如果将参数正则化到其他非零值 $w^{(o)}$ 。在这种情况下， $L^1$ 正则化将会引入不同的项 $\varOmega(\theta)=||w-w^{(o)}||_1=\sum{_i}|w_i-w_i^{(o)}|$ 。

正则化目标函数

具体形似如下： $\tilde J(w;X,y) = \alpha||w||_1+J(w;X,y)$
对应的梯度： $\nabla_w \tilde J(w;X,y)=\alpha sign(w)\: + \:\nabla_w J(w;X,y)$
其中 $s i g n (w)$ 只是简单地取 $w$ 各个元素的正负号。

近似处理

令 $w^*$ 为未正则化的目标函数取得最小训练误差时的权重向量，即 $w^*=arg\:min_w\:J(w)$ ，并在 $w *$ 的邻域对目标函数做二次近似。若果目标函数确实是二次的，则该近似是完美的。近似的 $J (w)$ 形式大致如下：
$J(w)\approx \hat{J}(w^{(*)})+(w-w^{(*)})^{T} j^{'} (w^{*})+ \frac{1}{2}(w-w^{(*)})^{T}(w-w^{(*)})j^{''}(w^{*})$
其中 $j(w)^{'}$ 是 $w=w^{*}$ ，即最优解的一阶导， $j(w)^{''}$ 表示最优解的二阶导，因为 $w^{*}$ 。
所以化简后
$J(w)=J(w^*)+\frac{1}{2}(w-w^*)^{T}(w-w^*)j^{''}(w^{*})$
在这里我们用Hessian矩阵表示二阶导，表示如下
$j^{''}\left( w^*\right) =H=\left[ \begin{matrix} \frac{\partial ^2f}{\partial w_{1}^{2}}& \frac{\partial ^2f}{\partial w_1\,\partial w_2}& \cdots& \frac{\partial ^2f}{\partial w_1\,\partial w_n}\\ & & & \\ \frac{\partial ^2f}{\partial w_2\,\partial w_1}& \frac{\partial ^2f}{\partial w_{2}^{2}}& \cdots& \frac{\partial ^2f}{\partial w_2\,\partial w_n}\\ & & & \\ \vdots& \vdots& \ddots& \vdots\\ & & & \\ \frac{\partial ^2f}{\partial w_n\,\partial w_1}& \frac{\partial ^2f}{\partial w_n\,\partial w_2}& \cdots& \frac{\partial ^2f}{\partial w_{n}^{2}}\\ \end{matrix} \right]$
最终化简后得到：
$j(w^{*})+\frac{1}{2}(w-w^{*})^{T}(w-w^{*})H$

正则化后的目标函数

$\hat{j}(w) = j(w)+\alpha||w||_1 = j(w^{*})+\frac{1}{2}(w-w^{*})^{T}(w-w^{*})H +\alpha||w||_1$

$w^{*}$ 的分析

对 $\hat{j}(w)$ 求导，并致其为零（这里假设Hessian矩阵是对角矩阵）:
$\nabla _wJ\left( w;X,y \right) =0+2\cdot \frac{1}{2}H\left( w-w^* \right) \left( w-w^* \right) ^{'}+\alpha \cdot sign\left( w \right) \\ = H\left( w-w^* \right) +\alpha \cdot sign\left( w \right) =0$
针对每个 $i$ ，则可表示为：
$H_{ii}(w_i-w_{i}^{*})+\alpha \cdot sign(w_i)=0$
考虑 $w_i=0$ 时，则 $\hat j(w)=j(w^{*})+\frac{1}{2}H(w^{*})^{2}$ ，由于 $w^{*}$ 为已知量，则 $j(w^{*})+\frac{1}{2}H(w^{*})^{2}$ 就是最小值，这里我们用下图表示：
在这里插入图片描述
根据极值点的性质可知，

当 ${w_i\to -0}$ ，此时 $H_{ii}(w_i-w_{i}^{*})-sign(w_i)\alpha=-H_{ii}w_{i}^{*}-\alpha \le 0$ ，则 $w_{i}^{*} \ge -\frac{\alpha}{H_{ii}}$ 。
当当 ${w_i\to +0}$ ，此时 $H_{ii}(w_i-w_{i}^{*})-sign(w_i)\alpha=-H_{ii}w_{i}^{*}+\alpha \ge 0$ ，则 $w_{i}^{*} \le \frac{\alpha}{H_{ii}}$ 。
综上，当 $w = 0$ 时， $-\frac{\alpha}{H_{ii}} \le w_{i}^{*} \le \frac{\alpha}{H_{ii}}$ 。
考虑 $w > 0$ 时，则 $w_{i} = w_{i}^{*}-\frac{\alpha}{H_{ii}}$ ，即 $w_{i}^{*}=w_{i} + \frac{\alpha}{H_{ii}} > \frac{\alpha}{H_{ii}}$ 。所以当 $w_{i}^{*}>\frac{\alpha}{H_{ii}}$ 时， $w_{i}=w_{i}^{*}-sign(w_{i})\frac{\alpha}{H_{ii}}=sign(w^{*})(|w^{*}|-\frac{\alpha}{H_{ii}})$ 。
考虑 $w < 0$ 时，则 $w^{*}<- \frac{\alpha}{H_{ii}}$ ;所以当 $w_{i}^{*}<- \frac{\alpha}{H_{ii}}$ 时， $w_{i}=w_{i}^{*}-sign(w_{i})\frac{\alpha}{H_{ii}}=sign(w^{*})(|w^{*}|-\frac{\alpha}{H_{ii}})$ 。
综上
a. 当 $|w^{*}| \le \frac{\alpha}{H_{ii}}$ ， $w_{i}=0$ 。
b. 当 $w^{*}>\frac{\alpha}{H_{ii}}$ 时； $\underset{min}{w}=sign(w^{*})(w^{*}-\frac{\alpha}{H})$ 。
c. 当 $w^{*}<\frac{\alpha}{H_{ii}}$ 时， $\underset{min}{w}=sign(w^{*})(w^{*}-\frac{\alpha}{H})$ 。
故 $w=sign(w^{*})max(|w^{*}|-\frac{\alpha}{H},0)$