You Only Look One-level Feature 论文笔记

You Only Look One-level Feature

YOLOF CVPR2021

论文链接: https://arxiv.org/abs/2103.09460

一、 Problem Statement

作者认为FPN网络的成功来自于两个方面: multi-scale feature fusion和 divide-and-conquer的方法。前者可以融合低分辨率和高分辨率的特征图来获得更好地表征;后者可以在不同层级上检测目标。现在大部分研究都是关于前者,后者被忽略了。但是作者实验表面: FPN的成功最重要的因素是因为其对于优化问题的解决办法,也就是分而治之(divide-and-conquer)。 但分而治之的方法,带来的问题就是: 结构复杂,内存消耗大,检测速度慢等。

二、 Direction

只用一个特征层,来进行后续的检测。

三、 Method

先来看一下整体的pipeline:

可以看出,网络分为三个部分:

  1. Backbone
  2. Encoder
  3. Decoder

1. Backbone

采用ResNet或者ResNeXt作为backbone,將第五层的特征图, C 5 C5 C5,输入到后续的Encoder。 C 5 C5 C5的通道数为2048,降采样比例为32。

2. Encoder

作者认为,Single-in-single-out的encoders问题出在: 与C5特征图的感受野相匹配的range of scales有限,而且positive anchors 的不平衡。

  • limited scale range
    multi-in-multi-out和single-in-multi-out的encoders,它们可以构建多个带有不一样感知域的层级特征(P3-P7),然后在这些层级进行目标检,感受野与其比例匹配。但是对于single-in-single-out的来说,感受野是固定的。也就是说 C 5 C5 C5的特征感受野只能覆盖一部分范围。如果目标的大小与感受野不匹配,会导致检测性能下降。 所以作者的解决办法是,通过堆叠标准和空洞卷积,扩大特征 C 5 C5 C5的感受野。如下图所示:

    可以看到,encoder由两个部分组成: projector和residual blocks。 projection layer首先使用1x1卷积减少通道数,然后使用3x3卷积。作者堆叠了四个residual blocks,其中的3x3卷积是由不同dilation rates组成的空洞卷积,用于生成含有多重感受野的特征,覆盖所有的目标大小。

  • imbalance on positive anchors
    在anchor-based的检测方法中,定义positive anchors是用过anchors和ground-truth的IoUs来决定的。如果anchor和ground-truth的最大IoU比设定的阈值大,这个anchor就是positive。作者称这个方法为Max-IoU匹配。在multi-in-multi-out的encoder中,anchors是预设置在不同层级上的,也就是说在对应的特征层级上,ground-truth会产生相对于尺度的positive anchors。但是使用single-in-single-out encoder时候,只有一个特征层级的positve anchors,导致了正样本的不平衡。大的ground-truth boxes会比小的ground-truth产生更多的postive anchors。这样会使得检测器在训练的时候关注大的ground-truth boxes,而忽略了小的那些。

    作者提出了 uniform matching 来解决上述问题。对每个ground-truth box采用k-nearest anchor作为positive anchors,使得所有ground-truth boxes可以被同样数量的positive anchors所匹配,且不考虑它们的大小。positive anchors的平衡问题,可以保证所有的ground-truth boxes在训练的时候都参与,并且作用都一样。但尽管这样,预设置的anchors是稀疏的,降低了anchors和ground-truth boxes的匹配质量。因此作者添加了random shift operation的操作,目的是对目标在图像的位置加入噪声,提升ground-truth boxes匹配高质量anchors的概率。同样,对anchors centers shift的限制对最后的分类有益。

3. Decoder

两路task-specific heads: classification head 和 regression head。同时对每个anchor添加了一个 objectness prediction(without direct supervision)。最后的classification scores是classfication output乘以相对应的objectness。

四、 Conclusion

YOLOF中的anchors是稀疏的,在推理阶段不够灵活。也就是存在没有高质量的预设anchors在ground-truth周围的情况。提出了只是用一个特征层来进行后续的检测任务,内存消耗少,结构简单,检测速度快,精度能达到SOTA。

Reference

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值