Topic
这是一篇CVPR 2022 Oral Paper,让我们继续体会小样本分割的魅力
Abstract
- 近年来,少镜头分割技术得到了广泛的发展。以往的工作大多试图通过分类任务的元学习框架来实现泛化,然而,训练的模型偏向于所见的类,而不是理想的类不可知,从而阻碍了对新概念的识别。
- 本文提出了一种新的、直截了当的观点来缓解这一问题。具体地说,我们在传统的FSS模型(元学习器)上增加了一个分支(基学习器)来明确地识别基类的目标,即不需要分割的区域。然后,这两个学习器并行输出的粗略结果被自适应地整合,以产生精确的分割预测。考虑到元学习器的敏感性,我们进一步引入了调整因子来估计输入图像对之间的场景差异,以便于模型集成预测。
- 在PASCAL-5i和COCO-20i上的大幅性能提升验证了有效性,令人惊讶的是,我们的多功能方案甚至在两个普通learners的情况下也设置了新的最先进的水平。此外,鉴于该方法的独特性,我们还将其扩展到一种更现实但更具挑战性的环境,即广义FSS,其中需要确定基类和新类的像素。
论文创新点 (Create point)
- 我们认为,除了设计更强大的特征提取模块外,调整包含足够训练样本的基础数据集的使用也是缓解上述偏差问题的一种替代方法,而这一问题在以往的工作中被忽视了。为此,我们在传统的FSS模型(元学习器)中引入了一个额外的分支(基本学习器)来显式预测基类的目标(见图1)。然后,这两个学习器并行输出的粗略结果被自适应地整合以生成准确的预测。这种操作背后的中心洞察力是通过在传统范例内训练的大容量分割模型来识别查询图像中的易混淆区域,从而进一步促进对新对象的识别。顺便提一句,该方案被命名为BAM,因为它由两个唯一的学习器组成,base and the meta.即基本学习器和元学习器。
Contribution:
- 我们提出了一种简单而有效的方案来解决偏差问题,方法是引入额外的分支来显式地预测查询图像中基类的区域,这对未来的工作具有启发意义。
- 我们建议通过Gram矩阵估计查询-支持图像对之间的场景差异,以减轻元学习者敏感性带来的不利影响。
- 我们的通用方案在所有环境下设置了新的FSS基准,即使有两个普通的学习者也是如此。
- 我们将所提出的方法扩展到更具挑战性的环境,即广义FSS,它同时识别基础类和新类的目标。
少镜头分割的目的是利用较少的标记数据进行分割。目前的方法通常在元学习范式下训练模型,也称为情景训练。具体地说,给定两个在对象类别方面互不相交的图像集DTrain和Dtest,模型期望在具有足够标注样本的DTrain上学习可传递的知识,从而在具有较少标注样本的Dtest上表现出良好的泛化能力。具体地说,这两个集合都由许多情节组成,每个情节都包含一个小支持集={(xsi,msi)}ki=1和一个查询集q={(xq,mq)},其中x∗和m∗分别表示特定类别c的原始图像及其对应的二进制掩码。在每个训练集中对模型进行优化,以在支持集S的条件下对查询图像XQ进行预测。一旦训练完成,我们将评估它们在所有测试集中的Dtest上的少镜头分割性能,而不需要进一步的优化。