论文题目:Consistent Optimization for Single-Shot Object Detection
作者:Tao Kong 1 Fuchun Sun 1 Huaping Liu 1 Yuning Jiang 2 Jianbo Shi 3
因为原始RetinaNet的class 与 location作为2个分支单独进行训练,没有建立联系,可能导致训练出来的predicted boxes 的分数可能与实际不符合,作者的这篇论文为此建立了很好的联系。
目前,大多数的Detector模型改进方法都集中在了two-stage阵营中,比如Cascade R-CNN、IoU-Net,One-Stage自从RetinaNet之后的工作就比较少了。相对于Two-Stage而言,One-Stage其实更难一些,因为它依赖于全卷积结构来对feature map上进行均匀采样的anchor进行分类和位置调整。怎样才能对现有的one-stage方法进行改进呢?在本文中我们对RetinaNet的结果进行了分析,并发现训练和测试的不一致是其中一个重要的原因。
1. 观察和分析
我们首先可视化了RetinaNet的regression分支的结果,发现anchor在regression之前和之后的定位性能的差别是非常大的。一个本身与ground-truth的IoU较小的anchor在回归之后依然可以与ground-truth的IoU变得较大。
从另一个方面讲,classification分支是基于原始的anchor进行训练的,在标准的设置中,会将IoU>0