论文阅读Soft Proposal Networks for weekly-supervised object localization

最新推荐文章于 2023-01-01 19:02:17 发布

cherrysnower

最新推荐文章于 2023-01-01 19:02:17 发布

阅读量2.6k

点赞数 5

分类专栏：论文阅读文章标签：论文阅读弱监督学习

本文链接：https://blog.csdn.net/xunmige2791/article/details/79589996

版权

论文：Soft Proposal Networks for Weakly Supervised Object Localization

1.摘要

弱监督的目标检测相对较为困难，因为只有image labels可以提供，在训练的过程中没有bounding boxes，本文是第一次将弱监督Object proposals集成在一个end-to-end的CNN里，文中定义了一个Soft proposal（SP）的模块，可以插入到CNN的任意一层，而且几乎是时间cost-free!（比RPN快10倍）称这个网络的名字叫soft proposal networks(SPNs)。基于深度feature maps逐渐迭代而进化的object proposal,然后再投影回feature map上，最后整体优化网络参数。SPN学习更好的object-centric fliters，发觉更多可区分的视觉特征，抑制背景的干扰，提高分类和定位的精度。
这里写图片描述
关于Object proposal的生成，从最开始的pipelined frameworks 到后来的unified frameworks，大大的提高了检测的速度。但是unified frameworks仍然不能用到弱监督目标检测中，因为弱监督训练中只存在image-level labels（即存不存在某个物体类别），为了解决这个问题，一些传统的方法就是基于多示例学习（MIL），从一个bag中（一个image 有很多proposals）选择一个实例（一个Proposal）来减小分类误差，然而这种piplined proposal and classfication 方法是次优的，两个步骤无法一起优化。
作者的启发来自与这篇文章，认为CNN可以被看做是object detectors，他们的feature map可以加起来生成Class Activation Map（CAM）。但是没有先验知识的目标区域在训练时，一般的CNN会被共存模式（co-occurrence）和噪声背景所误导。
这里写图片描述
这里的soft有三重含义：

对于每个receptive field只是预测出Objectness score，而不是提取出大量的物质的Proposal boxes
proposal 和 feature map的激活值以一种概率结合在一起，避免设定阈值硬性的砍掉
proposal随着CNN filters的更新而逐渐迭代

2.1 Object Proposal

传统的SS和EB的选择方式会选择出大量冗余的proposals。RPN使用CNN的特征进行选择，实现了end-to-end的方式，但是RPN的成功是建立在CNN的定位能力，训练出的好的模型依赖于精确地标注和定位，比如bounding boxes，所以这种方式会限制弱监督学习的能力。
这里写图片描述
本文的SPN只使用image-level annotations。所谓的Soft proposal是一种objectness confidence map而不是实际的Boxes。
查了一下什么是objectness map:

objectness measure(普通物体检测，即任意类别)相当于一个针对所有类别的目标检测，它量化了一副图像窗口中包含任何目标的可能性，展示了目标位置的分布

2.2 Soft proposal network

SPN的学习阶段分为两个过程，Soft Proposal Generation和Soft Proposal couping。前者通过在感受野的graph propagation，点亮潜在的object locations。后者集成feature map和生成的Proposal map ，通过迭代的Proposal生成，耦合，激活……，形成了若监督学习的端对端的过程。

2.2.1 Soft Proposal generation

定义proposal map $M \in \mathbb R$ 是一个由SP模块生成的objectness map
这里写图片描述
假如一个SPmodule插入到了第l层卷积层中，令 $U^l \in \mathbb R^{K\times N\times N}$ 为第l层的feature map。在feature map每个位置（i,j）的K个通道上特征向量 $\mathbf u_{i,j}^l = U_{\cdot,i,j}^l \in \mathbb R^K$ ， $M$ 表示要生成的proposal map，处理的时候把它reshape成一个 $N^2$ 的向量，初始化为 $\frac {1}{N^2}$ 。

最低0.47元/天解锁文章

cherrysnower

关注

5
点赞
踩
3

收藏

觉得还不错? 一键收藏
3
评论
论文阅读Soft Proposal Networks for weekly-supervised object localization

论文：Soft Proposal Networks for Weakly Supervised Object Localization1.摘要弱监督的目标检测相对较为困难，因为只有image labels可以提供，在训练的过程中没有bounding boxes，本文是第一次将弱监督Object proposals集成在一个end-to-end的CNN里，文中定义了一个Soft pr...
复制链接

扫一扫