正则化

最新推荐文章于 2021-07-26 00:03:55 发布

枫林扬

最新推荐文章于 2021-07-26 00:03:55 发布

阅读量308

点赞数

分类专栏：深度学习

原文链接：https://github.com/songyingxin/NLPer-Interview/blob/master/5-%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E5%9F%BA%E7%A1%80/Trick%20-%20%E6%AD%A3%E5%88%99%E5%8C%96.md

版权

深度学习专栏收录该内容

15 篇文章 0 订阅

订阅专栏

正则化

1. L1 正则化 - 稀疏正则化

1-范数: 表示向量元素的绝对值之和。
$=\sum_{i=1}^N |x_i|$

$\Omega(\theta) = ||w||_1 = \sum_i |w_i| \\ 目标函数： \tilde{J}(w;X,y) = \alpha ||w||_1 + J(w;X,y) \\ 梯度： \nabla_w \tilde{J}(w;X,y) = \alpha sign(w) + \nabla_w J(w;X,y) \\$

不同于L2，L1 正则化使得权重值可能被减少到0。因此，L1对于压缩模型很有用。

稀疏向量通常会有许多维度，如果再加上使用特征组合会导致包含更多的维度的。由于使用此类高维度特征向量，因此模型可能会非常庞大，并且需要大量的 RAM。

在高维度稀疏矢量中，最好尽可能使权重正好降至 0。正好为 0 的权重基本上会使相应特征从模型中移除。将特征设为 0 可节省 RAM 空间，且可以减少模型中的噪点。

2. L2 正则化 – 权重衰减

2-范数：表示向量元素绝对值的平方和再开方。
$\sqrt{\sum_{i=1}^N x_i^2}$

$\Omega(\theta) = \frac{1}{2} ||w||_2^2 = \frac{1}{2}w^Tw \\ 目标函数： \tilde{J}(w;X,y) = \frac{\alpha}{2}w^Tw + J(w;X,y) \\ 梯度： \nabla_w \tilde{J}(w;X,y) = \alpha w + \nabla_w J(w;X,y) \\ 梯度更新： w \leftarrow (1- \epsilon \alpha) w - \epsilon \nabla_w J(w;X,y)$

L2正则化又称权重衰减。因为其导致权重趋向于0（但不全是0）。

执行 L2 正则化对模型具有以下影响：

使权重值接近于 0（但并非正好为 0）
使权重的平均值接近于 0，且呈正态分布。

QA

1. 为何只对权重进行正则惩罚，而不针对偏置

在神经网络中，参数包括每一层仿射变换的权重和偏置，我们通常只对权重做惩罚而不对偏置做正则惩罚。

精确拟合偏置所需的数据通常比拟合权重少得多。每个权重会指定两个变量如何相互作用。我们需要在各种条件下观察这两个变量才能良好地拟合权重。而每个偏置仅控制一个单变量。这意味着，我们不对其进行正则化也不会导致太大的方差。另外，正则化偏置参数可能会导致明显的欠拟合。

2. 权重衰减的目的

限制模型的学习能力，通过限制参数 θ 的规模（主要是权重 w 的规模，偏置 b 不参与惩罚），使模型偏好于权值较小的目标函数，防止过拟合。

3. L1 与 L2 的异同

相同点：限制模型的学习能力，通过限制参数的规模，使模型偏好于权值较小的目标函数，防止过拟合。
不同点：
- L1是模型各个参数的绝对值之和；L2为各个参数平方和的开方值。
- L1 正则化可以产生稀疏权值矩阵，即产生一个稀疏模型，可以用于特征选择；L2 会趋向于生成一个参数值很小的矩阵。
- L1 适用于特征之间有关联的情况； L2 适用于特征之间没有关联的情况