关于权重衰退和丢弃法

LiterMa

已于 2022-07-17 16:27:02 修改

阅读量260

点赞数

分类专栏：机器学习深度学习文章标签：神经网络深度学习人工智能机器学习

于 2022-07-17 00:36:08 首次发布

本文链接：https://blog.csdn.net/weixin_46919419/article/details/125827277

版权

机器学习同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

深度学习

2 篇文章 0 订阅

订阅专栏

文章目录

权重衰退
丢弃法

本文是李沐老师和王木头老师视频的学习笔记

权重衰退

一般模型的参数越多那么模型的容量就越大（模型能对数据拟合的程度），为了防止模型过拟合有时我们需要降低模型的容量，比如通过限制参数值的范围来到达缩小模型容量的目的。
$min\; \mathscr{l}(w,b) \quad subject\; to \quad ||w||^2 \leq \theta$

$\theta$ 越小正则项越小

这是一个约束条件为 $||w||^2\leq \theta$ 的条件极值问题，使用拉格朗日乘子法求解，那么构造：
$min\;\mathscr{l}(w,b)+\cfrac{\lambda}{2}\big(||w||^2-\theta\big)$
而对于 $\lambda$ 和 $\theta$ 知其一就可以解除另一个，所以可以等价为：
$min\;\mathscr{l}(w,b)+\cfrac{\lambda}{2}||w||^2$
可证明 $\lambda\rightarrow\infty\quad w^*\rightarrow 0$ 使用 $\lambda$ 控制 $\theta$

如下图中 $C$ 代表 $\theta$ 个方向坐标轴为 $w$ 的大小，可见 $C$ 越大 $w$ 越小则起到了控制模型容量的作用。

那么梯度的计算和参数更新就变为了：

梯度：
$\cfrac{\partial}{\partial w}\big ( \mathscr l(w,b)+\cfrac{\lambda}{2}||w||^2 \big )\;=\; \cfrac{\mathscr l (w,b)}{\partial w}+\lambda w$

提取公因数后参数更新公示：
$w_{t+1}=(1-\eta\lambda)w_t-\eta\cfrac{\partial \mathscr l(w_t,b_t)}{\partial w_t}$
当 $\lambda\eta<1$ 时叫做权重衰退。

丢弃法

丢弃法对输出的元素 $x_i$ 做如下扰动：
$\left\{\begin{matrix}0,\quad probability \;p \\\cfrac{x_i}{1-p},\quad otherise\end{matrix}\right.$
经过此扰动对于每个 $x_i$ 的期望仍为 $x_i$
$E(x_i^{'})=0\cdot p+(1-p)\cdot \cfrac{x_i}{1-p}=x_i$

丢弃法将一些隐藏层的输出随机的置为0，从而来控制模型复杂度，其丢弃概率为控制模型复杂度的超参数。
在这里插入图片描述
dropout只在训练时启用，用于调整参数，在推理时并不使用。