摘要:本文主要研究的是少镜头目标检测(FSOD)和实例分割(FSIS),这需要一个模型能够快速适应具有少量标记实例的新类。由于缺少标签问题,现有方法严重存在偏见分类,这在实例级少射场景中自然存在,并且是由我们首次正式提出的。我们的分析表明,大多数FSOD或FSIS模型的标准分类头需要解耦以减轻偏差分类。因此,我们提出了一种令人尴尬的简单但有效的方法,将标准分类器解耦为两个头。然后,这两个单独的头能够独立寻址清晰的正样本和由缺失标签引起的嘈杂的负样本。这样,模型可以有效地学习新的类,同时减轻了有噪声的负样本的影响。在没有任何额外的计算成本和参数的情况下,我们的模型在FSOD和FSIS任务的PASCAL VOC和MS-COCO基准测试中始终优于其基线和最先进的水平。
Decoupling Classifier to Mitigate the Bias Classification:
为了区别处理正样本和负样本,我们将标准分类器解耦为两个头像,即正(前景)头像和负(背景)头像,其公式为:
这里,正面正面和负面正面分别负责正面和负面的样本。考虑到正向样本(前景)的标签是准确的,我们可以对所有正向实例使用交叉熵损失。
由于缺少标签问题,这些负例的标签可能是嘈杂的。因此,用正态交叉熵损失来训练负头部是不合理的。请注意,这些负例通常是从那些在间隔[0,0.5]处与基础真值边界盒有最大IoU重叠的对象建议中采样的,因此我们可以推断它们可能不属于基础真值类,尽管我们不知道它们的真实类别。
我们期望,如果负头部只在少数标记类别和背景类之间进行学习,则会减轻偏见分类。为此,我们首先对训练图像进行实例级少镜头标注的图像级多标签,记为m=[m0,m1,···,mC·1,mC]T,其中mi为二值指标,如果图像被标记为第i类,则mi为1,否则为0。注意,mC=1表示每个图像至少包含一个背景类。然后,我们可以得到一个以m为条件的受限logit¯x(x是logits得分),即
经过softmax函数处理后即为:
然后计算ce损失:
相当于对负样本(与真值iou在0-0.5之间的样本)预测的logits进行了处理,使属于这张图像类别的logits保持原来的值,而不是这张图像类别的logits都变为0。
negative head只在few-shot classes和背景类之间进行学习,避免了对于在小样本学习中背景中出现不属于小样本类别的学习,造成误分类。
Optimization with Decoupling Classifier:
positive head:
negative head:
效果:
解耦分类器的梯度示意图,其中蓝色箭头表示梯度方向。(a)展示了正头像上的梯度传播,(b)揭示了梯度传播在少数镜头标记类(例如,狗)和背景之间受到约束,从而减轻了偏差分类。最好以彩色和放大观看。