出发点
作者的出发点是,现有的检测backbone都是分类那边过来的,但是这些网络分类效果好,检测不一定就是最好的。假如我想要设计并找到一个更有效的网络,我们都需要预先在ImageNet上训练这些模型然后再检测任务上进行微调,这往往需要训练特别久,并且作者还发现小网络在ImageNet训练的结果并不好,在这上面再在检测任务上微调效果也不好。所以,作者提出了别的方式来获得预训练权重:用一个检测效果很好的网络来指导其他小检测网络训练,并确保两者检测性能差不多。
即:在原有GT训练的基础上,让小网络检测学习大检测网络的feature map,并且小网络不需要加载预训练模型,就能得到较好的效果,具体做法是将小网络的整张特征图采样并与大网络的特征图进行配准到相同尺寸和维数,感觉就是解决了超哥说的这个点,专门做配准。
Method
Faster-RCNN系列、SSD和YOLO这些检测器都可以分为两个部分,即采用一个backbone做特征提取,然后再通过网络去decode检测结果,本文提出的方法可以在全卷积网络上采用。如果直接在backbone最后一个卷积上进行特征蒸馏是不行的:一是特征的维度太高导致难以收敛,二是特征图的大小会因为输入图像不同而不同,三是由于待检测物体在整张图中很小,因此在特征图中的响应区域也很小。
作者采用的方法是将蒸馏整个feature变成蒸馏top-proposal特征,proposal的数量设定在256或者512,正负样本比例设定在1:1,