WRNs:Wide Residual Networks
Abstract
深度残差网络能够让我们将神经网络的层数增加到几千层仍然能够获得性能的提升。但是,准确率每提升一个百分点网络的层数几乎要增加一倍,因此训练非常深的残差网络存在降低特征重用的问题,这使得这些网络训练的很慢。为了解决这个问题,作者在这篇文章中做了很多对比实验来研究ResNet block的结构,然后提出了一种新的结构,在这种结构下作者减少了网络的深度但是增加了网络的宽度。作者将这种结构称为wide residual networks (WRNs),而且作者展示了这种结构要比通常的窄的但是深度很深的结构要好很多。
1 Introduction
Width vs depth in residual networks
作者提出了层数很深的ResNet的一个问题:
As gradient flows through the network there is nothing to force it to go through residual block weights and it can avoid learning anything during training, so it is possible that there is either only a few blocks that learn useful representations, or many blocks share very little information with small contribution to the final goal. This problem was formulated as diminishing feature reuse in [28]
意思是说随着梯度在网络中的传递,并没有措施来强制其通过Residual block weights,这样就可能导致在训练时学不到或者学到的很少,因此很有可能在网络中只有少数的几个block能够学习到有用的表示,其他很多blocks只是共享了很少的信息,对最终的结构贡献很少,这个问题被称为diminishing feature reuse。
基于上述的问题,作者就在这片文章中研究了怎么来设计wide residual networks以及来解决一些训练中的问题。
Use of dropout in ResNet blocks
之前有文章表明将 dropout 添加到 residual networks 中的 identity part 会有副作用。但是作者确认为应该添加到卷积层之间,实验表明这