Res2Net: A New Multi-scale BackboneArchitecture

Res2Net:一种新的多尺度主干架构

 参考:论文机翻:Res2Net: A New Multi-scale Backbone Architecture(Res2Net 论文机翻)_res2next-CSDN博客
摘要-

在众多视觉任务中,以多种尺度表示特征非常重要。 骨干卷积神经网络(CNN)的最新进展不断显示出更强大的多尺度表示能力,从而在整个应用范围内获得了一致的性能。然而,大多数现有方法都代表了多层尺度的多尺度特征。 在本文中,我们通过在单个残差块内构造类似于残差的分层连接,为CNN提出了一种新颖的构造块,即Res2Net。Res2Net在粒度级别上代表了多尺度功能,并增加了每个网络层的接受域范围。 可以将建议的Res2Net块插入最新的主干CNN模型中,例如ResNet,ResNeXt和DLA。 我们在所有这些模型上评估Res2Net块,并在广泛使用的数据集(例如CIFAR-100和ImageNet)上展示了优于基线模型的一致性能提升。有关代表性计算机视觉任务(例如,对象检测,类激活映射和显着对象检测)的进一步消融研究和实验结果,进一步验证了Res2Net相对于最新基线方法的优越性。源代码和训练模型可在https://mmcheng.net/res2net/获得。

 
1 介绍

图1:多尺度表示对于各种视觉任务至关重要,例如感知目标对象的边界,区域和语义类别。 即使对于最简单的识别任务,也可以从非常不同的尺度上感知信息,以理解零件,物体(例如,在此示例中是沙发,桌子和杯子)及其周围的背景(例如,“在桌子上”的背景)也有助于识别黑色斑点。

如图1所示,在自然场景中,视觉模式会以多比例出现。首先,对象在单个图像中可能会出现不同大小的图像,例如,沙发和杯子的大小不同。 其次,对象的基本上下文信息可能比对象本身占据更大的区域。 例如,我们需要以大桌子为背景,以更好地判断放在桌子上的黑色小斑点是杯子还是笔筒。 第三,感知不同尺度的信息对于理解零件和对象(如细粒度分类和语义分割)至关重要。 因此,为视觉识别任务的多尺度刺激设计良好的功能至关重要,包括图像分类[28],目标检测[43],注意力预测[45],目标跟踪[63],动作识别[46]  ],语义分割[6],显着目标检测[2],[24],目标提议[12],[43],骨架提取[67],立体匹配[42]和边缘检测[37],[57  ]。

毫不奇怪,多尺度特征已广泛用于常规特征设计[1] [39]和深度学习[10] [51]中。 在视觉任务中获得多尺度表示需要特征提取器使用大量的接受域来描述不同尺度的对象/零件/上下文。 卷积神经网络(CNN)通过一堆卷积运算符自然地学习了从粗到细的多尺度特征。  CNN固有的多尺度特征提取能力可以有效地解决众多视觉任务。如何设计更有效的网络架构是进一步提高CNN性能的关键。

在过去的几年中,例如[10]的几个骨干网络在众多具有先进性能的视觉任务中取得了显着进步。 诸如AlexNet [28]和VGGNet [47]的早期体系结构可堆叠卷积运算符,从而使数据驱动的多尺度特征学习成为可能。 随后,通过使用具有不同内核大小的转换层(例如,InceptionNets [50],[51],[52]),剩余模块(例如,ResNet [23]),快捷方式连接(例如,),提高了多尺度能力的效率 ,DenseNet [26])和分层层聚合(例如DLA [60])。 骨干CNN架构的进步表明了一种朝着更有效,更高效的多尺度表示方式发展的趋势。

图2:瓶颈块与拟议的Res2Net模块之间的比较(比例尺尺寸s = 4)。

在这项工作中,我们提出了一种简单而有效的多尺度处理方法。 与大多数现有的增强CNN的分层多尺度表示强度的方法不同,我们在更精细的水平上提高了多尺度表示能力。 与一些并发著作[5],[9],[11]通过利用具有不同分辨率的特征来提高多尺度能力的方法不同,我们提出的方法的多尺度是指更细粒度的多个可用接收场 。 为了实现这个目标,我们用一组较小的过滤器组替换n通道的3×3过滤器1,每个过滤器组都有w个通道(在不失一般性的情况下,我们使用n = s×w)。 如图2所示,这些较小的过滤器组以类似分层的残差样式连接,以增加输出特征可以表示的标度数量。 具体来说,我们将输入要素图分为几组。 一组过滤器首先从一组输入特征图中提取特征。 然后将上一组的输出要素与另一组输入要素图一起发送到下一组过滤器。 重复此过程几次,直到处理完所有输入要素图。 最后,将所有组的特征图连接起来,然后发送到另一组1×1过滤器以完全融合信息。 随着输入特征转换为输出特征的任何可能路径,当等效接收场通过3×3滤波器时,等效接收场就会增加,由于组合效应,会导致许多等效特征尺度。

Res2Net策略暴露了一个新的维度,即规模(Res2Net块中的特征组数量),作为深度[57]、宽度2和基数等现有维度之外的重要因素[68]。我们在4.4节中指出,增加规模比增加其他维度更有效。

注意,所提出的方法在更细粒度的水平上利用了多尺度潜力,这与利用分层操作的现有方法正交。 因此,可以很容易地将建议的构建块,即Res2Net模块插入许多现有的CNN架构中。 大量的实验结果表明,Res2Net模块可以进一步改善CNN的性能,例如ResNet [23],ResNeXt [56]和DLA [60]。

 
2相关工作
2.1骨干网

近年来,见证了无数的骨干网[15],[23],[26],[28],[47],[51],[56],[60]达到了最新水平 在各种视觉任务中表现出色,并具有更强的多尺度表示能力。 按照设计,由于输入信息遵循从细到粗的方式,CNN具备基本的多尺度特征表示功能。  AlexNet [28]按顺序堆叠过滤器,与传统的视觉识别方法相比,可显着提高性能。 但是,由于过滤器的网络深度和内核大小有限,AlexNet的接收域相对较小。  VGGNet [47]增加了网

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值