论文阅读-《Object Detection Networks on Convolutional Feature Maps》

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/yaoqi_isee/article/details/62104644

收录于IEEE Transactions on Pattern Analysis and Machine Intelligence 2015

1.Background&Motivation

  • 论文的背景是Fast/Faster R-CNN成为当时的检测精度最高的框架,同时Resnet刚发表不久,这个时候,基于回归模型的目标检测框架还没有发表。
  • 作者在论文一开始的时候提出了,基于region proposal的目标检测框架,随着前面的特征提取的网络的深度不断增加,整个目标检测系统的精度也在不断提高。但是人们并没有对后面的region-wise的分类器做太多的关注,fast/faster r-cnn用的分类器都是普通的多层感知器。
  • 所以本文的观点在于,后面的region-wise的分类器和前面的特征提取网络,对于提高检测精度一样重要。

2.Proposal

作者自己的观点可以总结为两点
1. a deep region-wise classifier is important for object detection accuracy , in addition to deep shared features
2. convolutional layers for extracting region-wise features are effective and are complementary to the effects for extracting full-image shared features

3.Experiments

基本的实验框架如下图所示
Noc_1
通过一个ROI Pooling将前面的feature extractor和后面的object classifier连接起来

  • 实验一(MLP)
    Noc_ex1
    第一组实验,feature extractor用的是ZF Net,经过ROI pooling之后得到的region feature是固定大小的。这里的四个对比项,第一行是直接用region feature训练SVM,下面三行用的是不同数量的fc层。结果表明MLP越深,检测效果越好

  • 实验二(Conv)
    Noc_ex2
    第二组实验,参照是原来的3层MLP,通过增加classifier当中卷积层的个数,观察检测的结果。在VOC07上的结果精度的下降作者解释是因为07的数据量太少了,出现了过拟合,在07+12上训练之后,加了卷积层的效果更好。

  • 实验三(fine-tune)
    Noc_ex2
    第三组实验做的是classifier的参数采用随机初始化以及fine-tune的对比。这里的maxout其实是用了一下多尺度的输入。可以看到对classifier进行fine-tune的效果会更好。这里fine-tune的参数来自前人训练好的3fcMLP

  • 实验四(error analysis)
    Noc_ex2
    通过纵向的对比,可以看出通过加深feature extractor,可以减少recognition error ,通过横向的对比,可以看出通过设计良好的classifier,可以减少localizaition error。可见后面的classifer和前面的feature extractor是一样重要的。

  • 实验五(faster rcnn with resnet)
    Noc_ex2
    第五组实验,作者拿了更深的googlenet和resnet做实验,说明一个良好设计的classifier对于这种深层次,全卷积的网络在目标检测的应用有着很大的作用。首先作者直接拿vgg16、googlenet以及resnet的模型,直接在最后一个卷积层的后面加上ROI-pooling,可以看到,在stride同样等于16的时候,3fc的vgg效果要比1fc的googlenet和resnet还要好,即使googlenet和resnet拥有更深的特征提取网络。当然,如果我们增加googlenet和resnet的MLP的层数的话,他们检测的精度也会上升,加入卷积层的话,又要比MLP要好。从resnet的最后两行可以看出,Noc主要是提高了localization的准确度,AP@0.5几乎没变,但是AP@0.75提高了。AP@0.75提高了,如果是因为recogniton提高的话,那么AP@0.5也应该也提高,但是几乎没变,但是如果在localization提高的话,在0.75可以体现,但是在0.5可能就体现不出来,因为是在大于0.5的基础上提高的。

阅读更多
想对作者说点什么?

博主推荐

换一批

没有更多推荐了,返回首页