使用L2正则化进行权重衰退

Stephen Bern

已于 2022-07-22 16:02:01 修改

阅读量178

点赞数

文章标签：机器学习深度学习算法人工智能

于 2022-06-02 20:26:56 首次发布

本文链接：https://blog.csdn.net/weixin_49716548/article/details/125105817

版权

正则化定义：凡是可以减少泛化误差，而不是去减小训练误差的方法，都可以称作为正则化方法。（直接理解：凡是能减小过拟合的方法，都叫做正则化方法）
本次主要介绍针对参数的正则化（针对参数，主要说的是 $w$ ）。

使用均方范数作为限制

可以通过限制参数值（一般来说是 $w$ ）的选择范围来控制模型容量/复杂度，进而防止过拟合：
$\;\;\;\;\;\;\;\;min\,l(w,b)，\lVert w \rVert^2\leq\theta$
注：小的 $\theta$ 意味着更强的正则项

对于每个 $\theta$ 都可以找到 $\lambda$ 使上述的目标函数等价于下面的：
$\,\,\,\,\,\,\,\,\,\,\,\,\,arg \,\,min\,l(w,b)+\frac {\lambda} {2}\lVert w \rVert$
可以通过拉格朗日乘子来证明，详细见https://www.bilibili.com/video/BV1Z44y147xA?spm_id_from=333.999.0.0

（绿色等高线代表损失函数 $l$ ，黄色的等高线代表我们加入的正则项（这里是 $l_2$ 正则项）。）

原本经梯度下降到最小的 $w$ 为图中 $\widetilde{w^*}$ ，加入正则项后，要想使 $\,\,min\,l(w,b)+\frac {\lambda} {2}\lVert w \rVert$ ，也就是将式子中的两项中和一下，则 $\widetilde{w^*}$ 会向黄色等高线方向移动。
通俗点讲， $\widetilde{w^*}$ 受黄色等高线的吸引力，直到 $w^*$ 时才保持平衡，此时取 $w^*$ 会使 $\,\,min\,l(w,b)+\frac {\lambda} {2}\lVert w \rVert$ 最小化。

正是因为加入正则项后，极小化损失函数 $l$ 所取得最优解 $\widetilde{w^*}$ 向原点移动了，所以 $w$ 得取值减小了，所以也让模型得复杂度降低了。

参数更新法则

加入 $L_2$ 正则项后，计算梯度

$\frac { \partial(l(w,b)+\frac {\lambda} {2}\lVert w \rVert)} {\partial w}$ = $\frac { \partial l(w,b)} {\partial w}$ + $\lambda w$

更新参数

$w_{t+1}=w_t-\eta\frac { \partial(l(w_t,b)+\frac {\lambda} {2}\lVert w_t \rVert)} {\partial w_t}$
$\qquad\qquad\qquad\Downarrow$
$w_{t+1}=(1-\eta\lambda)w_t-\eta\frac { \partial l(w_t,b)} {\partial w_t}$