让特征更可辨识-FSCE: Few-Shot Object Detection via Contrastive Proposal Encoding

CVPR 2021
论文链接:https://arxiv.org/abs/2103.05950

个人理解
论文思路:作者认为,低AP源于混淆分类带来的误分类,可以通过输入图像与支持样例的特征进行对比的方法,来提高类紧凑和类间差。
提出问题:少样本下的误分类问题
方法:当检测到少样本新数据时,在感兴趣区域头部增加一个对比分支,对比测量结果和提议目标之间的相似性。
实验:在旧类上分类不一定好,但在新类加入后性能好
结果:成本低,适用度高


简介

深度学习需要大量的标记数据,而现实生活中存在很多少样本的情况。在少样本训练中,存在误分类的问题。在深层网络中,少样本会有严重的过采样问题。
在这里插入图片描述
在以往的方法中,元学习从基类中选取元任务样本与新类匹配,以模拟少镜头检测任务。TFA 修改了分类和回归 box ,超过了元学习。MPSR减轻了少样本数据集的尺度偏差,但这会使模型变得复杂。 RPN 够识别新样本,最终的定位也较准确。

如图,将检测到的新样本误分类为其他基类是错误的主要来源(cow–bird)。
在这里插入图片描述

作者发现,有些类别的类间相似度达到了0.59,这会导致分类错误,然而基于类别级的正向分类器在这种数据匮乏的环境中不起作用。但对比学习在识别时是有效的。监督批处理对比方法扩展到少镜头目标检测时,对比学习的对象表征意识到类内紧凑和类差异,可以减少新对象分为相似基类的错误分类。

作者提出了基于 FSCE 的少样本目标检测方法,当检测到少样本新数据时,在感兴趣区域头部增加一个对比分支,对比测量结果和提议目标之间的相似性。这种有监督对比目标的优化将不同类别的样本区分开。提出的对比目标,对比提议编码(CPE) loss,在原分类和目标处以多任务的方式制定目标。

相关方法

  • 少样本学习
  • 少样本目标检测
  • 对比学习

方法

FSCE 包含一个两阶段的训练,首先在基础数据集上训练 Faster RCNN ,然后在基础+新数据集上训练微调后的检测器,在微调时会冻结特征提取,同时这个特征会被一个对比器监督,对比提议编码(CPE) loss 会被分类和回归目标共同优化。
在这里插入图片描述

1.准备工作

  • 思考微调方法:TFA 仅仅调节了网络的最后两层全连接层,冻结了其他的结构,这减少了对新数据的过拟合。FPN、RPN 则可以直接加入新类,不用多余的调整和训练。
    在基线TFA中,解冻后的 RPN 和 RoI特征提取会降低新类的检测性能,但如果训练得当,可以加强新的检测结果。因此,作者提出了一个新的基线,微调特征提取器和检测头,能更好地适应新数据。
  • 强大的基线:检测性能会因为网络被新样本微调而下降。然而,在数据丰富的基础训练阶段和新的微调阶段之间的 RPN 和 RoI 统计数据差距很大。新样本加入后的建议框仅仅是基线的四分之一,样本框也大量减少,这会导致检测时绕过了 NMS 。作者的观点是许多低分的锚定框被抑制,拯救他们可增加建议框,同时,平衡样本建议框分数一控制梯度下降幅度(?)。

作者使用了未冻结的 RPN 和 ROI,将建议框分数记为两倍,这样增加了建议框数量,又将建议框数量减半以抑制建议框过多,如表1,为基线结果。
在这里插入图片描述

2.Contrastive object proposal encoding

在二阶段检测器中,RPN 输入主干网络提取的特征,输出建议框,ROI 头分类回归每个建议框。Faster RCNN 固定建议框的大小,但是在少样本的情况下,有错误识别和分类的情况。因此对比特征以获得更加健壮的表达可以解决此问题。
为了让对比特征融合到 Faster RCNN 中,作者在 ROI 头中加入了一个平行的对比分支。由于 ROI 特征向量 x 包含 relu 后激活,在0处会被截断,因此不能直接测量两个建议框之间的相似性。在此基础上,作者利用具有负代价的多层感知器( MLP )的对比分支,在 MLP-head 编码的 ROI 特征上测量目标提议表示之间的相似度得分,并实现优化,以最大限度地提高来自同一类别的目标之间的一致性,提高来自不同类别建议框的独特性。
在分类时,作者采用了余弦相似度,预测第 i i i 个实例为第 j j j类时, l o g i t logit logit 是通过 ROI 特征 x i x_i xi 和类权值 w j w_j wj 之间的比例余弦相似度来计算的,如下:
在这里插入图片描述
其中, α \alpha α 是一个放缩因子。
这个对比分支让簇间更加紧促,从而增强了网络的泛用性。

3.CPE Loss

N N N 个 ROI 特征 { z i , u i , y i } i = 1 N \{z_i,u_i,y_i\}_{i=1}^N {zi,ui,yi}i=1N 中, z i z_i zi 是第 i i i 个建议框的对比头编码 ROI 特征, u i u_i ui 表示其与真实框匹配的 IOU 得分, y i y_i yi 表示 ground-truth 的标签。

在这里插入图片描述
其中, N y i N_{y_i} Nyi y i y_i yi 对应的建议框, τ τ τ 为超参数, z i ~ \widetilde{z_i} zi 表示标准化特征表示, z i ~ . z i ~ \widetilde{z_i}.\widetilde{z_i} zi .zi 表示两特征之间的相似度。
这个损失函数提高了具有相同标签的目标在不同投影下的相似度,使得同类别样本更加紧密,集群周围的边缘被扩大。
在这里插入图片描述

  • 建议一致性控制:IOU ,不同于图像分类中语义信息来自于整个图像,分类检测信号来自于区域提议。低 IOU 会使偏离回归对象的中心太多,可能包含不相关的语义。作者使用了下式控制 IOU 值, g ( ⋅ ) g(·) g() 表示对不同 IOU 得分水平的建议赋不同的权重系数。
    在这里插入图片描述
  • 训练目标:第一阶段,用标准的 Faster R-CNN loss、二元交叉熵 loss L r p n L_{rpn} Lrpn 对锚点提出建议框、交叉熵loss L c l s L_{cls} Lcls 用于分类损失、smooth - l1 loss L r e g L_{reg} Lreg 用于回归对基检测器进行训练。当在微调阶段转移到新的数据时,对比损失可以在不破坏训练的情况下,加入到网络中去。

在这里插入图片描述
其中, λ \lambda λ 用于平衡损失。

实验

数据集:PASCAL VOC、COCO
网络:Faster-RCNN(ResNet-101)+ FPN + SGD

1. 测试基准

PASCAL VOC:5类保留作为新类(5/20)
COCO:20类保留作为新类(20/80)

2. 结果

PASCAL VOC:
在这里插入图片描述
COCO:
在这里插入图片描述

3. 消融实验

组件的消融实验:
在这里插入图片描述
超参数对比:感兴趣区域和 τ τ τ
在这里插入图片描述
建议区域一致性:不同阈值一致性
在这里插入图片描述
分析:
在这里插入图片描述

图5为方法的可视化,可得到,在数据丰富的通用检测中,FC 分类器和余弦分类器的饱和性能基本相同。FC 层可以从足量数据中学习到复杂的决策边界,余弦分类器在少数对象检测方面有优势。实例级的类内相似度和类间相似度通过CPE损耗,并引导RoI头学习对比感知的对象提议表示。图5 ©显示了在 TFA 中较差,但在 FSCE 中较好的例子,包括新实例的漏检、新实例的低置信度分数和错误分类。

总结

作者提出了 FSOD,通过对比建议编码,准确定位错误分类的对象,这种方法成本低,适用度高。所提出的基线有广泛影响。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值