01 正则化

最新推荐文章于 2023-03-06 10:18:55 发布

weixin_45674607

最新推荐文章于 2023-03-06 10:18:55 发布

阅读量152

点赞数

分类专栏： # 压缩与加速技术（01）文章标签：机器学习深度学习人工智能

本文链接：https://blog.csdn.net/weixin_45674607/article/details/129151107

版权

压缩与加速技术（01）专栏收录该内容

2 篇文章 0 订阅

订阅专栏

文章目录

深度学习中的正则化

深度学习中的正则化

什么是正则化

机器学习中的一个核心问题是设计不仅在训练数据集上表现好，而且在新输入上泛化号的算法。在机器学习中，许多策略被显式地设计来减少误差（可能会以增大训练误差为代价）。这些策略被统称为正则化。

参数范数惩罚

许多正则化方法通过对目标函数 $J$ 添加一个参数范数惩罚 $\varOmega(\theta)$ ,限制模型的学习能力。我们将正则化后的目标函数记为 $\tilde J$ :
$\begin{aligned} \tilde J ( \boldsymbol{\theta}; \boldsymbol{X}, \boldsymbol{y})=J(\boldsymbol{\theta};\boldsymbol{X},\boldsymbol{y}) +\alpha\varOmega(\boldsymbol{\theta}) \end{aligned}$
其中 $\alpha \in\:[0,\infty)$ 是权衡范数惩罚项 $\varOmega$ 和标准目标函数 $J(\boldsymbol{X};\boldsymbol{\varOmega})$ 相对贡献的超参数。将 $\alpha$ 设为0表示没有正则化； $\alpha$ 越大，对应正则化惩罚越大。

惩罚的参数对象

在神经网络中，参数包括每一层仿射变换的权重和偏置，通常只对权重做惩罚而不对偏置做正则化惩罚。原因：

精确拟合偏置的数据通常比拟合权重少的多，权重会指定两个变量如何相互作用。而我们需要在复杂的条件下两个变量才能良好地拟合权重。单个偏置仅控制一个变量，即不对其进行正则化也不会导致太大的方差。
正则化偏置可能会导致明显的欠拟合。

一般地，为了减少搜索空间，在神经网络中的每一层都是用相同的权重衰减 $\alpha$ .