Residual Network Research: Wide Residual Networks

本文研究了深度残差网络(ResNet)中的宽度与深度关系,提出Wide Residual Networks (WRNs)。作者发现,通过减少网络深度、增加宽度,可以提高网络性能,且训练更高效。实验表明,与深而窄的ResNet相比,宽的WRNs在CIFAR-10和CIFAR-100数据集上表现更优,且参数量相近。此外,论文还探讨了在ResNet块中使用dropout的最佳实践。
摘要由CSDN通过智能技术生成

WRNs:Wide Residual Networks

Abstract

深度残差网络能够让我们将神经网络的层数增加到几千层仍然能够获得性能的提升。但是,准确率每提升一个百分点网络的层数几乎要增加一倍,因此训练非常深的残差网络存在降低特征重用的问题,这使得这些网络训练的很慢。为了解决这个问题,作者在这篇文章中做了很多对比实验来研究ResNet block的结构,然后提出了一种新的结构,在这种结构下作者减少了网络的深度但是增加了网络的宽度。作者将这种结构称为wide residual networks (WRNs),而且作者展示了这种结构要比通常的窄的但是深度很深的结构要好很多。

1 Introduction

Width vs depth in residual networks
作者提出了层数很深的ResNet的一个问题:

As gradient flows through the network there is nothing to force it to go through residual block weights and it can avoid learning anything during training, so it is possible that there is either only a few blocks that learn useful representations, or many blocks share very little information with small contribution to the final goal. This problem was formulated as diminishing feature reuse in [28]

意思是说随着梯度在网络中的传递,并没有措施来强制其通过Residual block weights,这样就可能导致在训练时学不到或者学到的很少,因此很有可能在网络中只有少数的几个block能够学习到有用的表示,其他很多blocks只是共享了很少的信息,对最终的结构贡献很少,这个问题被称为diminishing feature reuse。

基于上述的问题,作者就在这片文章中研究了怎么来设计wide residual networks以及来解决一些训练中的问题。

Use of dropout in ResNet blocks
之前有文章表明将 dropout 添加到 residual networks 中的 identity part 会有副作用。但是作者确认为应该添加到卷积层之间,实验表明这

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值