1.背景
尺度问题一直是目标检测领域比较核心的待解决的问题。目前,对于这个问题还没有比较彻底的解决思路,有两种比较好的方法来处理这一问题:
图像金字塔,即网络输入图像的多尺度,比如常见的multi-scale test的trick,这种方法需要耗费很大的计算量。
特征金字塔,即融合不同深度的feature map来获得多尺度特征,比如FPN,这种方法速度更快,但是性能不好,按照论文的说法,是因为它牺牲了不同尺度的特征一致性(即不同scale的feature经过不同深度不同参数的变换,反应出来的特征会更全面和表达能力更强)。
抛除这些结构上的因素,具体到DNN的设计上,影响DNN对尺度处理能力的因素主要有两点:
1、较深的层一般感受野越大,因此处理大目标的能力较强。
2、过多的下采样层会损伤网络对小目标的检测能力
这篇文章探究了另一个可能的关键因素对目标检测的影响,即感受野的大小问题。提出了Trident Network的结构来处理尺度变化,并达到权重共享、scale-aware training和快速inference方法等,进行了大量的对比实验,内容比较充实。
2.方法
TridentNet在原始的backbone上做了三点变化:
1.构造了不同receptive field的parallel multi-branch,
2.对于trident block中每一个branch的weight是share的。
3.对于每个branch,训练和测试都只负责一定尺度范围内的样本,也就是所谓的scale-aware。