[2017CVPR]Mimicking very efficient network for object detection 论文笔记

最新推荐文章于 2024-10-11 18:54:15 发布

机器就不学习

最新推荐文章于 2024-10-11 18:54:15 发布

阅读量343

点赞数

分类专栏：目标检测知识蒸馏文章标签：目标检测计算机视觉深度学习

本文链接：https://blog.csdn.net/weixin_45750753/article/details/123434789

版权

本文探讨了一种新的目标检测方法，通过大网络指导小网络的训练，避免了预训练的复杂性和小网络在ImageNet上的低效。通过提案特征的L2损失蒸馏，小网络能获得与大网络相似的检测性能。实验表明，这种方法优于从头开始训练，并且在迁移学习中有应用潜力。

摘要由CSDN通过智能技术生成

出发点

作者的出发点是，现有的检测backbone都是分类那边过来的，但是这些网络分类效果好，检测不一定就是最好的。假如我想要设计并找到一个更有效的网络，我们都需要预先在ImageNet上训练这些模型然后再检测任务上进行微调，这往往需要训练特别久，并且作者还发现小网络在ImageNet训练的结果并不好，在这上面再在检测任务上微调效果也不好。所以，作者提出了别的方式来获得预训练权重：用一个检测效果很好的网络来指导其他小检测网络训练，并确保两者检测性能差不多。

即：在原有GT训练的基础上，让小网络检测学习大检测网络的feature map，并且小网络不需要加载预训练模型，就能得到较好的效果，具体做法是将小网络的整张特征图采样并与大网络的特征图进行配准到相同尺寸和维数，感觉就是解决了超哥说的这个点，专门做配准。

Method

Faster-RCNN系列、SSD和YOLO这些检测器都可以分为两个部分，即采用一个backbone做特征提取，然后再通过网络去decode检测结果，本文提出的方法可以在全卷积网络上采用。如果直接在backbone最后一个卷积上进行特征蒸馏是不行的：一是特征的维度太高导致难以收敛，二是特征图的大小会因为输入图像不同而不同，三是由于待检测物体在整张图中很小，因此在特征图中的响应区域也很小。

作者采用的方法是将蒸馏整个feature变成蒸馏top-proposal特征，proposal的数量设定在256或者512，正负样本比例设定在1:1，