DetectoRS:最强的目标检测网络介绍

论文链接
代码链接

1.摘要

许多现代目标探测器都利用了两次looking和thinking的机制,表现出了优异的性能。在本文中,我们探讨了这种机制在目标检测主干设计中的应用。
在宏观层面,我们提出了递归特征金字塔,它将来自特征金字塔网络的额外反馈连接整合到自下而上的主干层。
在微观层面上,我们提出了可切换的空洞卷积,它将具有不同atrous rate对特征进行卷积,并使用开关函数收集结果。将它们结合在一起形成检测器,大大提高了目标检测的性能。在COCO-test-dev上,探测器实现了54.7%的目标检测AP,47.1%的掩模AP用于实例分割,49.6%的PQ用于全景分割。

2.介绍

为了检测物体,人类视觉感知通过反馈连接传递高级语义信息,选择性地增强和抑制神经元的激活。受人类视觉系统的启发,the mechanism of looking and thinking twice的机制在计算机视觉中得到了体现,并表现出了突出的性能。许多流行的两级目标检测器,例如faster-RCNN[58],首先输出目标建议,然后根据这些建议提取区域特征来检测目标。沿着相同的方向,级联R-CNN[5]开发了一种多级检测器,在这种检测器中,后续的检测器头被训练成具有更多选择性的示例。这种设计理念的成功促使我们将其应用于目标检测的神经网络主干设计中。特别是,我们在宏观和微观两个层面上部署了该机制,从而使我们提出的探测器显著地提高了最先进的目标探测器HTC[7]的性能,同时
推理速度保持不变,如表所示1。

在这里插入图片描述

2.1递归金字塔RFP

在宏观层面上,提出的递归特征金字塔(RFP)建立在特征金字塔网络(FPN)之上,将来自FPN层的额外反馈连接合并到自下而上的主干层中,如图1a所示,获得了一个能观察两次或更多图像的目标探测器的主干。与级联R-CNN中的级联检测器头类似,RFP递归地增强FPN以生成越来越强大的表示。类似于深度监督的网络,反馈连接将直接接收来自探测器头的梯度的特征带回到自下而上主干的低水平,以加快训练速度并提高性能。我们提出的RFP实现了一种先看后想的顺序设计,其中自底向上的主干网和FPN被多次运行,其输出特性依赖于前面的步骤。
在这里插入图片描述
特征金字塔网络:
图2:递归特征金字塔(RFP)的体系结构(a) 功能金字塔网络(FPN)(b) 我们的RFP将反馈连接纳入FPN(c) RFP展开为两步序列网络
在这里插入图片描述

2.2 可切换的空洞卷积SAC

在微观层面,我们提出了可切换的空洞卷积(SAC),它将相同的输入特征与不同的atrous rate卷积起来,并使用开关函数收集结果。图1b示出了SAC的概念的图示。开关函数具有空间依赖性,即特征映射的每个位置可能有不同的开关来控制SAC的输出。为了在检测器中使用SAC,我们将自底向上主干中所有标准的3x3卷积层转换为SAC,大大提高了检测器的性能。以前的一些方法采用条件卷积,例如[39,74],它也将不同卷积的结果组合为单个输出。不同于那些架构需要从头开始训练,SAC提供了一种机制,可以轻松地转换预训练的标准卷积网络(例如,ImageNet预训练检查点)。此外,SAC采用了一种新的重量锁定机制,除了可训练的差异外,不同的空洞卷积的重量是相同的。
在这里插入图片描述
图4显示了SAC的总体架构,它有三个主要组件:在SAC组件之前和之后附加两个全局上下文模块。重点介绍中间的主要SAC组件,后面解释全局上下文模块。y=Conv(x,w,r)表示以x为输入输出y的加权w和速率r的卷积运算。
在这里插入图片描述
表2:以ResNet-50为主干的COCO val2017检测结果。模型经过12个epoch的训练
在这里插入图片描述

3.实验

在COCO数据集上进行了实验。文中介绍的所有模型都是在2017年的train拆分上训练的,它有115k个标签图像。然后,我们在val2017和test-dev上对模型进行了测试,并用mmdetection实现了检测器。我们的基线模型是HTC,它使用数据集中的边界框和实例分段注释。运行时间是在单个NVIDIA TITAN RTX显卡上测量的。严格遵循HTC的实验设置。对于烧蚀研究,我们训练了12个epoch的模型,8个和12个epoch后学习率乘以0.1。此外,其他的训练和测试设置保持不变,不使用铃声和口哨。对于消融研究后的主要结果,我们采用多尺度训练,长边设为1333,短边随机抽样[4001200]。我们训练了40个时期的模型,36个和39个时期后学习率乘以0.1。对于测试,软NMS[3]仅用于ResNeXt-101-32x4d。我们还报告了测试时间增加(TTA)的结果,包括水平翻转和多尺度测试,短边设置为[800,1000,1200,1400,1600],长边设置为1.5倍短边。

在这里插入图片描述
表3:RFP(中间组)和SAC(底部组)在COCO val2017上使用ResNet-50进行消融研究Ablation study。
在这里插入图片描述
在这里插入图片描述
表4:用于边界目标检测的COCO测试设备的技术比较。TTA:测试时间增加,包括多尺度测试、水平翻转等,没有TTA的探测器输入尺寸为(1333,800)。多尺度训练
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.结论

文章以“look-ing and thinking twice”的设计思想为出发点,提出了一种基于递归特征金字塔和可切换的atrus卷积检测器。递归特征金字塔在宏观层面实现了两次思考,其中FPN的输出通过反馈连接返回到自下而上主干网的每个阶段。可切换的空洞卷积实例化两次在微观层面,其中的输入是卷积与两个不同的空洞卷积。在COCO上对检测器进行了目标检测、实例分割和全景分割实验。它为所有这些任务设定了最先进的结果。

  • 4
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值