Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector少样本目标检测论文的理解(来自2020CVPR)
1.问题定义
首先明确定义问题。给定支持图像和查询图像,目标是找出查询图像中所有属于支持类别的目标;同时用紧密边框标示出来。
如果问题的支持对象,包含N个支持类别,每个类别中有K个样本,那么就是N-way K-shot 检测问题。小样本检测问题中的小样本就是指shot很少。
2.深度注意力小样本检测模型
下面进入模型的第一部分。
这张图展示了深度注意力小样本检测的整体模型,我们构建了一个权重共享网络,它的基础是Faster R-CNN网络,其中包含RPN和检测器。
在Faster R-CNN的基础上,我们引入了attention RPN和多关系检测器。
我们利用此框架来训练支持和查询特征之间的匹配关系。
下面我们将依次介绍attention RPN和多关系检测器。
2.1 attention RPN
第一个问题,RPN是什么。RPN本质是基于滑窗的无类别的物体检测器。
将输入通过卷积转化为特征图后,进行RPN,第一步,将窗口在图像上滑动,得到锚点;第二步,对锚点进行分类分支和边框回归分支计算;第三步,汇总结果,筛选和偏移锚点得到Proposal ,也就是候选。这就是RPN的过程,目的是检测出物体。
再来看我们的需求,需求是区分出物体和非物体,这个由RPN就可以做到。还要去除非支持类别的物体,因此我们提出Attention RPN ,将支持信息引入RPN,过滤不匹配支持类别的物体。
将支持信息引入RPN具体是如何实现的呢。
我们通过depthwise的方法计算X与Y之间的相似性,也就是支持信息与查询信息的相似性,通过相似性来构建proposal。
作者通过实验发现,attention RPN生成了更小、更精确的候选框,同时有更大可能性包含目标对象。
2.2 多关系检测器
多关系检测器的目的是衡量支持对象和查询图像候选框之间的相似性。我们注意到,之前衡量相似性是为了形成候选框,这里就是直接判断候选与支持对象是否匹配。
多关系检测器包含3个模块,全局关系模块用于学习深度嵌入来进行全局匹配,局部关系模块用于学习