L1、L2 正则化的一些原理

最新推荐文章于 2023-01-29 19:19:58 发布

回想sy

最新推荐文章于 2023-01-29 19:19:58 发布

阅读量1.1k

点赞数 2

分类专栏：深度学习文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_49708196/article/details/124083044

版权

深度学习专栏收录该内容

8 篇文章 1 订阅

订阅专栏

L1／L2 正则化与高斯先验／对数先验的 MAP 贝叶斯推断的关系

1. MAP 贝叶斯推断

贝叶斯推断和极大似然的用处一样，都是求生成训练数据的参数 $\theta$ ，但是极大似然估计是基于频率派的思想，而贝叶斯推断是基于贝叶斯派的思想。

MAP（Maximum A Posteriori, MAP）最大后验估计点估计。

$\theta_{MAP} = \underset{\theta}{argmax} p(\theta|x)=\underset{\theta}{argmax} \log p(x|\theta)+\log p(\theta)$

$p(\theta)$ 是先验分布，例如考虑具有高斯先验权重的线性回归模型。如果先验是 $N(\theta;0, \frac{1}{\lambda }I^2)$ ，那么 $\log p(\theta)=-\frac{\lambda w^T w}{2I^2}+ C$ ， $C$ 是常数，转化为求极小问题可以发现其对应着 $L 2$ 权重衰减。因此具有高斯先验权重的 MAP 贝叶斯推断对应着 $L 2$ 权重衰减。

2. L2正则化

关于 $L 2$ 正则化的形式不再赘述，下面只是从代数角度分析一些 $L 2$ 原理。

对于不加正则化的目标函数在最优点 $w^*$ 处二阶泰勒展开为 $J(w)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*)$ 其中 $H$ 是 $w^*$ 处的 Hessian 矩阵，一阶项由于等于 0 省略。因为 $w^*$ 最优，所以可以知道 $H$ 是半正定的。

然后考虑加上 $L 2$ 正则的目标函数（在 $w^*$ 附近） $J(w)+\lambda w^Tw=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*)+\lambda w^Tw$ 。

对其求一阶导令其等于 0 有

$\lambda w + H(w-w^*)=0$

得到最优解 $\hat{w}=(H+\lambda I)^{-1}Hw^*$ ，比较未添加正则项之前的最优解 $w^*$ 和 $\hat{w}$ 之间的区别，就能明白 $L 2$ 正则做了一件什么样的事情。因为 $H$ 半正定，故存在正交矩阵 $Q$ 使得 $Q\Lambda Q^T$ ，代入

$\hat{w}=(Q\Lambda Q^T+\lambda I)^{-1}Q\Lambda Q^Tw^*=[Q(\Lambda + \lambda I) Q]^{-1}Q\Lambda Q^Tw^*=Q(\Lambda + \lambda I)^{-1}\Lambda Q^T w^*$

可以看出来权重衰减的效果是针对 $H$ 的特征向量所定义的轴缩放 $w^*$ 。具体来说，我们根据 $\frac{\alpha_i}{\alpha_i+\lambda}(\alpha_i 为 H 的第i个特征值)$ 因子缩放与 $H$ 第 $i$ 个特征向量对齐的 $w^*$ 的分量，当 $\alpha_i >> \lambda$ 时， $w_i$ 受的影响较小，当 $\alpha_i << \lambda$ 时， $w_i$ 会收缩到几乎为 0 。

查看源图像

3. L1 正则化

$L 1$ 正则化被定义为 $\Omega(\theta)=||w||_1=\sum_{i}|w_i|$ ，即各个参数的绝对值之和。和上面的分析类似，正则化的目标函数 $\hat{J}(w;X, y)=\lambda ||w||_1 + J(w;X, y)$ ，其对应的次梯度为

$\bigtriangledown_w\hat{J}(w;X, y)=\lambda sign(w) + \bigtriangledown_w J(w;X, y)$

如果没有正则项的最优解为 $w^*$ ，在 $w^*$ 附近的 $J$ 的为 $J(w)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*)$ ， $H$ 是在 $w^*$ 的 Hessian 矩阵。为了简化问题，这里假设 $H$ 是对角矩阵，则添加上 $L 1$ 正则项的目标函数为

$\hat{J}(w;X, y)=J(w^*)+\sum_{i}[\frac{1}{2}H_{i, i}(w_i-w_i^*)^2+\lambda|w_i|]$

关于 $w_i$ 求导求其最小值可得到

$w_i=sign(w_i^*)max\{|w_i^*|-\frac{\lambda}{H_{i, i}}, 0\}$

对于每个 $i$ ，考虑 $w_i^*>0$ 的情形，会有两种可能结果。

(1) $w_i^*\le \frac{\lambda}{H_{i, i}}$ 的情况。正则化后目标中的 $w_i$ 最优值 $w_i=0$ 。 $L 1$ 正则化将 $w_i$ 推向 0 。

(2) $w_i^*> \frac{\lambda}{H_{i, i}}$ ， $L 1$ 正则化不会将其推至 0，而只是向那个方向移动 $\frac{\lambda}{H_{i, i}}$ 的距离。

$w_i^*<0$ 的情形与此类似。相比于 $L 2$ 正则， $L 1$ 正则会产生更为稀疏的解。因此 $L 1$ 可以用来进行 特征选择 。
在这里插入图片描述

上面说 $L 2$ 正则是带有高斯先验权重的 MAP，对于 $L 1$ 正则化，是带有各向同性的拉普拉斯先验权重的 MAP 。

$\log p(w)=\sum_{i}\log Laplace(w_i;0, \frac{1}{\alpha})=-\alpha||w||_1+n\log\alpha - n\log 2$

文章来源：花书p142-p144

回想sy

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
L1、L2 正则化的一些原理

L1／L2 正则化与高斯先验／对数先验的 MAP 贝叶斯推断的关系1. MAP 贝叶斯推断贝叶斯推断和极大似然的用处一样，都是求生成训练数据的参数 θ\thetaθ ，但是极大似然估计是基于频率派的思想，而贝叶斯推断是基于贝叶斯派的思想。MAP（Maximum A Posteriori, MAP）最大后验估计点估计。θMAP=argmaxθp(θ∣x)=argmaxθlog⁡p(x∣θ)+log⁡p(θ)\theta_{MAP} = \underset{\theta}{argmax} p(\thet
复制链接

扫一扫