dropout为什么能够防止过拟合

最新推荐文章于 2025-03-05 14:24:50 发布

zbw328

最新推荐文章于 2025-03-05 14:24:50 发布

阅读量4.8k

点赞数

分类专栏： Deeplearning问题大汇总

本文链接：https://blog.csdn.net/zbw328/article/details/81699325

版权

Deeplearning问题大汇总专栏收录该内容

3 篇文章

订阅专栏

都知道dropout可以防止过拟合，有一次被面试官问到dropout是怎么有效的防止过拟合的，当时没回答上来，然后就学习了一波。可能现在理解的还不是很透彻，大概总结一下，便于后续使用。

对于dropout的提出，深度学习领域大神Hinton，在2012年文献：《Improving neural networks by preventing co-adaptation of feature detectors》提出了，在每次训练的时候，让一半的特征检测器停过工作，这样可以提高网络的泛化能力，Hinton又把它称之为dropout。Hinton认为过拟合，可以通过阻止某些特征的协同作用来缓解。在每次训练的时候，每个神经元有百分之50的几率被移除，这样可以让一个神经元的出现不应该依赖于另外一个神经元。每次将一个神经网络进行dropout之后就是对这个网络进行了瘦身处理，有一些参数被dropout掉，得到了一个更加简单的网络。

另外，从别人的博客上看到，对于一个有N个节点的神经网络，有了dropout后，就可以看做是2^n个模型的集合了，但此时要训练的参数数目却是不变的，这就解脱了费时的问题。这一点不是很理解，为什么会变成这么多模型的集合，不是很明白。

另外一个可以防止过拟合的原因是，我们可以把dropout理解为模型平均。假设我们要实现一个图片分类任务，我们设计出了1000个网络，这1000个网络，我们可以设计得各不相同，然后我们对这1000个网络进行训练，训练完后我们采用平均的方法，进行预测，这样肯定可以提高网络的泛化能力，或者说可以防止过拟合，因为这1000个网络，它们各不相同，可以提高网络的稳定性。而所谓的dropout我们可以这么理解，这n个网络，它们权值共享，并且具有相同的网络层数(这样可以大大减小计算量)。我们每次dropout后，网络模型都可以看成是整个网络的子网络。(需要注意的是如果采用dropout，训练时间大大延长，但是对测试阶段没影响)。

根据个人实际经验，dropout在数据量比较小的时候，不建议使用，效果并没有特别好，dropout的值一般来说取值为0.5效果会比较好。