深度学习——权重衰减

最新推荐文章于 2023-10-02 10:42:45 发布

_Learning_

最新推荐文章于 2023-10-02 10:42:45 发布

阅读量606

点赞数

文章标签：深度学习 python

本文链接：https://blog.csdn.net/weixin_45349682/article/details/128115694

版权

可以通过收集更多的训练数据缓解过拟合–高成本，高耗时（或者完全超出我们的控制）。若已经拥有尽可能多的高质量数据，便可以将重点放在正则化上来。

权重衰减（weight decay）：（正则化）—— $L_2$ 正则化
通过 $f(x) = W^Tx$ 中的权重向量的范数来表示其复杂性。要保证权重向量比较小，最常用的方法是将其范数作为惩罚项加到最小化损失的问题中。将原来的训练目标最小化训练标签上的预测损失，调整为最小化预测损失和惩罚项之和。
对于线性模型损失函数：
$L(\mathbf{w}, b)=\frac{1}{n} \sum_{i=1}^{n} \frac{1}{2}\left(\mathbf{w}^{\top} \mathbf{x}^{(i)}+b-y^{(i)}\right)^{2}$
为了惩罚权重向量的大小，我们需要以某种方式再损失函数中添加 $\|\mathbf{w}\|^{2}$ 。通过正则化尝试 λ 来平衡这个额外惩罚的损失：
$L(\mathbf{w}, b)+\frac{\lambda}{2}\|\mathbf{w}\|^{2}$ （除以二是为了，当我们求导数的时候，2和 $\frac{1}{2}$ 可以抵消）
λ = 0 时，即恢复了原来的损失函数，
λ > 0 时，表示限制了 $\|\mathbf{w}\|$ 的大小。

$L_2$ 正则化小批量随机梯度下降更新如下式：
$\mathbf{w} \leftarrow(1-\eta \lambda) \mathbf{w}-\frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} \mathbf{x}^{(i)}\left(\mathbf{w}^{\top} \mathbf{x}^{(i)}+b-y^{(i)}\right)$