深度学习笔记一（实践相关）

正则化是一种减少方差的方法，进行正则化时，可能会出现方差和偏差权衡的问题，偏差可能略有增加，但是如果网络非常大，偏差通常不会增幅太大。当发生了过度拟合，通常第一想到的就是正则化。简单来说，正则化就是对代价函数增加限制条件，限制其较高次的参数大小不能过大。正是因为高次项参数导致了过拟合的发生，如果我们能够将高此项的系数接近0，那么就能很好地拟合了。

参考：

(1条消息) 【深度学习】正则化（超详解）_ZSYL的博客-CSDN博客_深度学习正则化https://blog.csdn.net/qq_46092061/article/details/119680604

L1,L2正则化

在逻辑回归中加入正则化，需要加上正则化参数λ，即给代价函数增加惩罚项，防止其权重过大。

逻辑回归的损失函数增加L1正则化：

L1范数：

(1条消息) 一篇文章完全搞懂正则化（Regularization）_见见大魔王的博客-CSDN博客_正则化https://blog.csdn.net/weixin_41960890/article/details/104891561?spm=1001.2101.3001.6650.3&utm_medium=distribute.pc_relevant.none-task-blog-2~default~CTRLIST~Rate-3.topblog&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2~default~CTRLIST~Rate-3.topblog L1正则化对于所有权重予以同样的惩罚，也就是说，不管模型参数的大小，对它们都施加同等力度的惩罚(取绝对值的作用)，因此，较小的权重在被惩罚后，就会变成0。因此，在经过L1正则化后，大量模型参数的值变为0或趋近于0，当然也有一部分参数的值相对就会变得很高。由于大量模型参数变为0，这些参数就不会出现在最终的模型中，因此达到了稀疏化的作用，这也说明了L1正则化自带特征选择的功能，这一点十分有用。

L2正则化时最常见的正则化类型

逻辑回归的损失函数中增加L2正则化：

L2的范数可以理解为（所有W参数的平方和）

参考 (1条消息) 一篇文章完全搞懂正则化（Regularization）_见见大魔王的博客-CSDN博客_正则化https://blog.csdn.net/weixin_41960890/article/details/104891561?spm=1001.2101.3001.6650.3&utm_medium=distribute.pc_relevant.none-task-blog-2~default~CTRLIST~Rate-3.topblog&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2~default~CTRLIST~Rate-3.topblog 二次正则项的优点就是处处可导，方便计算！

L2正则化对于绝对值较大的权重予以很重的惩罚，对于绝对值很小的权重予以非常非常小的惩罚，当权重绝对值趋近于0时，基本不惩罚。这个性质与L2的平方项有关系，即越大的数，其平方越大，越小的数，比如小于1的数，其平方反而越小。

如何使用L2范数实现梯度下降呢？

使用反向传播计算dw的值，反向传播会给出J对W的偏导数，我们要做的就是在原来dw的基础上加上 $\frac{\lambda }{m} w^{^{[l]}}$ ，然后用这个新的dw来计算更新项 $w^{^{[l]}}$

$dw = \frac{\partial J}{\partial w} +\frac{\lambda }{m}w ^{[l]}$ (1)

$w := w - \alpha dw$ (2)

将（1）带入（2）可以得到（3）

$W = W - \alpha (\frac{\partial J}{\partial w}+\frac{\lambda }{m}W)$ (3)

整理得 $W = W(1-\frac{\alpha \lambda }{m}) - \alpha *\frac{\partial J}{\partial w }$ （4）

每次进行更新的时候都会让 $W(1 - \frac{\alpha \lambda }{m})$ ，而这个系数一直小于1，所以常称L2范数为权重衰减。

为什么正则化有利于防止过拟合现象？

将正则化系数设置得足够大时，权重矩阵W就会被设置为接近0的值，即许多隐藏单元的权重设为0，那么就会基本消除了这些隐藏单元的许多影响（实际上依然存在只是影响变小），将神经网络简化为一个很小的神经网络，但是深度很大，使其不断从过拟合状态接近高偏差状态。这个过程中正则参数λ会有一个中间值，使数据的拟合程度达到一个适度的状态。

采用tanh作为激活函数时，z非常小时，激活函数就处于正切函数的线性状态，当z扩展到更大或者更小值时，激活函数开始变为非线性。

当λ很大时， $w^{[l]}$ 很小，由于 $Z = W^{[l]}a^{[l-1]}+b$ ，所以Z受到影响后也会很小，所以利用tanh激活函数后，基本呈现线性。我们知道，如果每一层激活函数都呈现线性的话，那么整个神经网络基本上就是一个线性网络（即使它非常深），不会发生过度拟合（就是从过度拟合往欠拟合上拉）。所以它不适合非常复杂的决策以及过度拟合数据集的非线性决策边界。

dropout正则化

dropout正则化（随机失活）是一种非常实用的正则化方法，主要作用就是处理过度拟合，它会遍历网络的每一层，并设置消除该层神经网络节点的概率（比如随机消除该层40%的节点），对于消除的节点会删除从该节点进出的连线，最后得到一个节点更少，规模更小的网络，再进行训练。

实施dropout——反向随机失活（inverted dropout）

用一个三层网络来说明如何实施dropout，定义一个向量d表示三层的dropout向量

d3 = np.random.rand(a3.shape[0],a3.shape[1])

根据该随机矩阵d3中的元素是否小于某个0.x来生成一个只含有0,1的随机矩阵，比如，根据元素是否小于0.8，那么就会删去20%的节点数。保留小于0.8的1位置的节点。(keep-prob=0.8)

得到只含有0,1的d3矩阵后，用d3*a3，即a3 = np.multiply(a3,d3)，这样就可以将d3中0元素与a3中的相对元素归零。（如果keep-prob设置为1，那么就不存在dropout，因为它会保留所有节点）

在测试阶段，我们不期望输出结果是随机的，所以测试阶段不会使用dropout函数。

理解dropout

dropout会让神经元随机失活，这使得每一次迭代都在一个更小的神经网络中计算，而使用更小的神经网络就好像具有了正则化的效果。

不能依赖任何一个特征，因为该单元的输入随时有可能被清除，所以不会给任何一个输入过多的权重，为每个输入都加一点权重，通过这种方式进行传播，dropout将会产生收缩权重的平方范数的效果，和L2正则化有点类似，实施dropout的结果是会压缩权重，完成一些预防过拟合的外层正则化。

不同层的keep-prob值可以不同，越接近输出层的keep-prob值越大，因为越是接近输出层，它的过拟合程度相对越轻。通常我们只对隐藏层应用dropout，而不对输入层用。

dropout主要用在计算机视觉领域。

缺点：代价函数J不再被明确定义，每次迭代都会随机移除一些点，检查梯度下降的性能是很难复查的，因为优化的代价函数J没有明确定义，某种程度上很难计算。通常可以关闭dropout，即令keep-prob的值设置为1，运行代码，确保J单调递减。

其他正则化方法

数据扩增

拟合猫咪图片分类器时，可以将原始图片数据经过翻转，旋转或者裁剪等操作作为新的数据来扩充原始数据。

字符识别时，可以将原始图片上的数字经过随意旋转或者扭曲数字作为新的数据添加到训练集进行处理。

数据扩增可作为正则化方法使用，实际功能上也与正则化相似。

early stopping（早终止法）

运行梯度下降时，我们可以绘制训练误差或者绘制代价函数J的优化过程，呈现单调下降的趋势。而验证集误差的表现通常会先呈现下降趋势，然后从某个节点开始上升，early stopping要做的就是在中间点停止迭代，得到一个w值中等大小的弗罗贝尼乌斯范数，与L2相比，选择w范数较小的神经网络，（但愿过度拟合情况不严重）

优点是只进行一次梯度下降，可以找出w的较小值，中间值和较大值，无需尝试L2正则化超参数λ的很多值。

优化代价函数J

优化代价函数可以采用梯度下降、Momentum、RMSprop和Adam等等，优化代价函数之后，为了防止过拟合，需要正则化、扩充数据等等。

在优化代价函数J时，只需要注意w和b，而J的值越小越好，之后再去处理过拟合。

early stopping的主要缺点是，不能独立地处理这两个问题，停止梯度下降之后，就不会继续优化代价函数J，那么代价函数可能会不够小，同时又不希望会出现过拟合。

L2正则化的训练时间很长，需要尝试许多不同的λ值。

归一化输入

归一化输入是一种加速神经网络训练的方法，有两个步骤，一个是零均值，一个是归一化方差。我们希望训练集和测试集都通过相同的μ和 $\delta ^{2}$ 训练数据，所以μ和 $\delta ^{2}$ 是通过训练集数据得到的。

$x = \frac{x-\mu }{\delta }$

零均值化

$\mu = \frac{1}{m} \sum_{i=1}^{m} x^{(i)}$ 这是一个向量，更新x就是将x中的每个元素减去均值μ x = x-μ

即移动训练集，直到它完成均值化。

归一化方差

给 $\delta$ 赋值，即 $\delta ^{2} = \frac{1}{m} \sum_{i=1}^{m} (x^{(i)})^{2}$ $\delta ^{2}$ 是一个向量，每个特征都有方差， $x = \frac{x}{\delta }$

代价函数： $J(w,b) = \frac{1}{m}\sum_{i=1}^{m} L(\widehat{y}^{(i)},y^{(i)})$

表现：

使用归一化之后，代价函数的表现就会更对称一些，使用梯度下降法进行迭代的次数就会减少，能够更快速地找到最小值。表现如下图所示，

如果特征 $x_{1}$ 的范围在0~1之间，而 $x_{2}$ 的范围在-1~1之间，它们是相似范围，所以表现得很好，但是无果其中一个0~1，而另一个0~1000，那么这对优化算法将非常不利，此时，进行归一化就非常重要了。

Savannah913

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
深度学习笔记一（实践相关）

目录训练、验证、测试集（Train/Dev/Test sets）验证集和测试集没有测试集偏差和方差（Bias/Variance）高偏差——欠拟合高方差——过度拟合适度拟合编辑训练集误差和验证集误差（Train set error and Dev set error）最优误差分析优化模型（机器学习基础）处理偏差处理方差需要注意正则化L1,L2正则化逻辑回归的损失函数增加L1正则化：L2正则化时最常见的正则
复制链接

扫一扫

专栏目录