论文名称:Feature Selective Anchor-Free Module for Single-Shot Object Detection
作者:Chenchen、Zhu Yihui He、 Marios Savvides from Carnegie Mellon University
Motivation:
作者认为传统的anchor-based检测方法有2个缺点:
1、引导式的特征选择 ;
2、重叠的anchor采样;(没大懂)
The FSAF module addresses two limitations brought up by the conventional anchor-based detection:
- heuristic-guided feature selection;
- overlap-based anchor sampling.
因此,作者提出anchor-free的在线式的选择特征层的方法,尤其是对FPN的多个特征层选择,并且在这个训练的同时也可以采用anchor-based的方法并行训练。
实验表明:在COCO上达到了44.6%的MAP的好成绩。
Introduction
One challenging problem for object detection is scale variation.
作者认为最大的问题是目标检测在尺度变化上的问题。如果采用公式: l ′ = l 0 + l o g 2 ( w h / 224 ) l' = l_0 + log_2(\sqrt{wh}/224) l′=l0+log2(wh/224)来分层决定尺度的话,不能保证为GT指派最合适的feature map。如40X40与50X50的车被化分到同一特征层上。
于是作者提出的FSAF模型用于解决上述问题。该模型主要是让实例选择最合适的特征层次进而来优化网络,因此,在该模型中不应该存在anchor限制特征的选择。
Related Work
aspects:
- how to create the anchor-free branches in the network;
- how to generate supervision signals for anchor-free branches;
- how to dynamically select feature level for each instance;
- how to jointly train and test anchor-free and anchor-based branches).
architecture
FPN 有7层,文中只画了3层。在 RetinaNet 的 box 和 cls 分支上仅仅各加了一层 conv layer,分别生成一个 W × H × K classification output 和一个 W × H × 4 的 regression output
不多说直接上图:
ground-truth & loss
class:
每一个 pixel 预测这个位置是什么类别,共K个类别,在第k个类别上的instance在feature map 上的映射的 0.2 倍 box 内为 positive,在 0.5 倍 box 内进行忽略,不进行反向传播;其他都设为0。以此,进行回归。
location:
直接回归中心附近点( 0.2 倍大小范围内)到边框的距离。
而 regression output 只针对于 0.2 倍的 instance box 进行训练,回归像素点(i,j)离边界的距离。
直接上公式:
网络出来的预测值乘上比例系数(文中为4.0):
[ p t i , j , p l i , j , p b i , j , p r i , j ] → S ∗ [ p t i , j , p l i , j , p b i , j , p r i , j ] [p_{t}^{i,j}, p_{l}^{i,j},p_{b}^{i,j},p_{r}^{i,j}] \to S*[p_{t}^{i,j}, p_{l}^{i,j},p_{b}^{i,j},p_{r}^{i,j}] [