正则化(2)机器学习和深度学习中的正则化方法

最新推荐文章于 2020-11-22 12:29:58 发布

yaochuyi

最新推荐文章于 2020-11-22 12:29:58 发布

阅读量390

点赞数

分类专栏：机器学习系列文章标签：正则化

本文链接：https://blog.csdn.net/yaochuyi/article/details/80025901

版权

机器学习系列专栏收录该内容

18 篇文章 0 订阅

订阅专栏

参考：
https://blog.csdn.net/u012162613/article/details/44261657
https://blog.csdn.net/liujiandu101/article/details/55103831

1. 正则化方法：防止过拟合，提高泛化能力

正则化(1) L1和L2正则化

2. Dropout

L1、L2正则化是通过修改代价函数来实现的，而Dropout则是通过修改神经网络本身来实现的，它是在训练网络时用的一种技巧（trike）。它的流程如下：
这里写图片描述
假设我们要训练上图这个网络，在训练开始时，我们随机地“删除”一半的隐层单元，视它们为不存在，得到如下的网络：

保持输入输出层不变，按照BP算法更新上图神经网络中的权值（虚线连接的单元不更新，因为它们被“临时删除”了）。

以上就是一次迭代的过程，在第二次迭代中，也用同样的方法，只不过这次删除的那一半隐层单元，跟上一次删除掉的肯定是不一样的，因为我们每一次迭代都是“随机”地去删掉一半。第三次、第四次……都是这样，直至训练结束。

以上就是Dropout，它为什么有助于防止过拟合呢？可以简单地这样解释，运用了dropout的训练过程，相当于训练了很多个只有半数隐层单元的神经网络（后面简称为“半数网络”），每一个这样的半数网络，都可以给出一个分类结果，这些结果有的是正确的，有的是错误的。随着训练的进行，大部分半数网络都可以给出正确的分类结果，那么少数的错误分类结果就不会对最终结果造成大的影响。

更加深入地理解，可以看看Hinton和Alex两牛2012的论文《ImageNet Classification with Deep Convolutional Neural Networks》

经验：原始输入每一个节点选择概率0.8，隐藏层选择概率为0.5

dropout的优点：

相比于weight decay、范数约束等，该策略更有效
计算复杂度低，实现简单而且可以用于其他非深度学习模型

dropout的缺点：

当训练数据较少时，效果不好

注意：
dropout训练过程中的随机过程不是充分也不是必要条件，可以构造不变的屏蔽参数，也能够得到足够好的解。

3. 数据集扩增（data augmentation）

“有时候不是因为算法好赢了，而是因为拥有更多的数据才赢了。”既然这样，收集更多的数据不就行啦？如果能够收集更多可以用的数据，当然好。但是很多时候，收集更多的数据意味着需要耗费更多的人力物力，有弄过人工标注的同学就知道，效率特别低，简直是粗活。

所以，可以在原始数据上做些改动，得到更多的数据，以图片数据集举例，可以做各种变换，如：

旋转/反射变换(rotation/reflection)
翻转变换(flip)
缩放变换(zoom)
平移变换(shift)
尺度变换(scale)
对比度变换(contrast)
噪声扰动(noise)

更多的数据可以使算法表现得更好。在机器学习中，算法本身并不能决出胜负，不能武断地说这些算法谁优谁劣，因为数据对算法性能的影响很大。

4. 提前停止（Early Stopping）

在模型训练过程中经常出现随着不断迭代，训练误差不断减少，但是验证误差减少后开始增长。
提前停止（Early Stopping）的策略是：在验证误差不在提升后，提前结束训练；而不是一直等待验证误差到最小值。

为什么提前终止具有正则化效果？

与L2正则化的原理相似，都是使得参数 $\omega$ 趋于一个合适的大小。
提前终止可以在参数 $\omega$ 变得越来越大的时候，提前结束这个变化过程，避免太大的 $\omega$ 出现，如此也就防止了过拟合。

提前终止的优点：

有效性，提前终止了训练，所以节省了计算时间。
简单性，不需要像L1、L2正则化那样设置更复杂的损失函数，因此相比之下，梯度下降的计算也更简单。此外，L2正则化需要设定一个 $\lambda$ 的超参数，需要尝试多个值以得到最合适的 $\lambda$ 。与之相比，提前终止只需要确定一个训练时间就能够自动选择最佳参数。
在很多情况下具有与L2相近的正则化效果。