论文:Soft Proposal Networks for Weakly Supervised Object Localization
1.摘要
弱监督的目标检测相对较为困难,因为只有image labels可以提供,在训练的过程中没有bounding boxes,本文是第一次将弱监督Object proposals集成在一个end-to-end的CNN里,文中定义了一个Soft proposal(SP)的模块,可以插入到CNN的任意一层,而且几乎是时间cost-free!(比RPN快10倍)称这个网络的名字叫soft proposal networks(SPNs)。基于深度feature maps逐渐迭代而进化的object proposal,然后再投影回feature map上,最后整体优化网络参数。SPN学习更好的object-centric fliters,发觉更多可区分的视觉特征,抑制背景的干扰,提高分类和定位的精度。
关于Object proposal的生成,从最开始的pipelined frameworks 到后来的unified frameworks,大大的提高了检测的速度。但是unified frameworks仍然不能用到弱监督目标检测中,因为弱监督训练中只存在image-level labels(即存不存在某个物体类别),为了解决这个问题,一些传统的方法就是基于多示例学习(MIL),从一个bag中(一个image 有很多proposals)选择一个实例(一个Proposal)来减小分类误差,然而这种piplined proposal and classfication 方法是次优的,两个步骤无法一起优化。
作者的启发来自与这篇文章,认为CNN可以被看做是object detectors,他们的feature map可以加起来生成Class Activation Map(CAM)。但是没有先验知识的目标区域在训练时,一般的CNN会被共存模式(co-occurrence)和噪声背景所误导。
这里的soft有三重含义:
- 对于每个receptive field只是预测出Objectness score,而不是提取出大量的物质的Proposal boxes
- proposal 和 feature map的激活值以一种概率结合在一起,避免设定阈值硬性的砍掉
- proposal随着CNN filters的更新而逐渐迭代
2.1 Object Proposal
传统的SS和EB的选择方式会选择出大量冗余的proposals。RPN使用CNN的特征进行选择,实现了end-to-end的方式,但是RPN的成功是建立在CNN的定位能力,训练出的好的模型依赖于精确地标注和定位,比如bounding boxes,所以这种方式会限制弱监督学习的能力。
本文的SPN只使用image-level annotations。所谓的Soft proposal是一种objectness confidence map而不是实际的Boxes。
查了一下什么是objectness map:
objectness measure(普通物体检测,即任意类别)相当于一个针对所有类别的目标检测,它量化了一副图像窗口中包含任何目标的可能性,展示了目标位置的分布
2.2 Soft proposal network
SPN的学习阶段分为两个过程,Soft Proposal Generation和Soft Proposal couping。前者通过在感受野的graph propagation,点亮潜在的object locations。后者集成feature map和生成的Proposal map ,通过迭代的Proposal生成,耦合,激活……,形成了若监督学习的端对端的过程。
2.2.1 Soft Proposal generation
定义proposal map M∈R M ∈ R 是一个由SP模块生成的objectness map
假如一个SPmodule插入到了第l层卷积层中,令 Ul∈RK×N×N U l ∈ R K × N × N 为第l层的feature map。在feature map每个位置(i,j)的K个通道上特征向量 uli,j=Ul⋅,i,j∈RK u i , j l = U ⋅ , i , j l ∈ R K , M M 表示要生成的proposal map,处理的时候把它reshape成一个
的向量,初始化为 1N2 1 N 2 。