👉Paper Link:Cross-Domain Few-Shot Semantic Segmentation
👉Code and Datasets:GitHub
Paper的主要创新点
总的来说呢,就是解决了小样本分割学习中由于domain shift而导致模型效果较差的问题,提出了可以迅速适应unseen domains的PATNet(Pyramid-Anchor-Transformation based few-shot segmentation network)。
具体来讲这个PATNet、以及Paper的贡献,有以下几点:
- CD-FSS:将原有的小样本分割扩展到了新的task,叫Cross-Domain Few-Shot Semantic Segmentation(CD-FSS),来应对unseen domains的任务。
- 一个针对CD-FSS的benchmark:这个基准数据集包括了很多不同的domains,具有domain shift和discrimination
- PATM: Pyramid Anchor-based Transformation Module,用来将特定领域的特征转换到领域无关(未知,domain-agnostic)这种
- TFI: Task-adaptive Fine-tuning Inference,任务适应性微调推论,进一步提高 Query 图像预测的准确率,快速适应测试阶段的新对象,用来完善对unseen domains的预测
- SOTA:在CD-FSS benchmark上取得了最优效果
阅读中遇到的Question
记录于2022年11月28日,第一次接触,不懂得有很多。
1.“all layers are frozen”具体指什么?
2.anchor layers和Pyramid
……(未记录完整,比如5.1和5.2就有很多┭┮﹏┭┮)
Paper梳理
0 Abstract
- 小样本语义分割目的是只需要少量标注样本就可以分割一个新的class
- 大多数现有的方法都默认基类和新类是来自相同的域
- 外加现实因素的影响:很多领域想要收集大量的有标注的样本是非常困难的
- 因此在现实因素+现有方法缺陷的推动下,paper提出了CD-FSS,想要将meta-knowledge从具有足够训练标签的domain推广到low-resource domain,也就是只有少量训练标签的domain
- 还建立了 CD-FSS 任务的benchmark,并以任务难度测量为特征
- 提出了一种基于 Pyramid-Anchor-Transformation(金字塔-矛-转换) 的新型少镜头分割网络 (PATNet),其中特定领域的特征被转换为领域无关的特征,以便下游分割模块快速适应未见过的领域
Keywords:Few-shot Learning,Cross-Domain,Transfer Learning,Semantic Segmentation
1 Introduction
-
FSS目的是学习一个模型,只用几张像素级的注释图像就能对新的类别进行分割,但很难将现有的方法应用到跨领域的场景中。
-
因此扩展FSS到CD-FSS,将元知识从具有足够训练标签的领域(例如PASCAL)推广到低资源领域
-
下图👇是现有工作与CD-FSS的区别,主要区别在于训练过程中能否访问target domain、source domain和target domain的训练数据集和测试数据集的分布是否相同
CD-FSS中,训练阶段的数据分布Xs和标签Ys与测试阶段的数据分布Xt和标签Yt都是不同的、不互通的。 -
针对CD-FSS的benchmark包括4个不同的domains:FSS-1000、Deepglobe、ISIC2018和Chest X-ray,用于评估分割模型在不同领域间隙下的跨领域泛化能力。作者使用这个benchmark还评估了FSS、迁移学习中具有代表性的methods性能,结果显示如下两点:
1) 现有的几张照片的语义分割方法的性能在大的领域转移下会明显下降。当目标域与源域有巨大差异时,这些方法甚至不如简单的迁移学习baselines
2) 在有限的域差异环境下,元学习方法比所有迁移学习baselines更有效 -
CD-FSS的一个主要挑战是,从源域学到的特征空间不能应用于目标域。为了解决这个问题,paper提出了一个新颖的基于金字塔锚的转换模块(PATM),将特定领域的特征转换为领域无关的特征,因此,下游模型可以通过匹配support set和query set的领域无关的特征来进行分割,从而很好地适应新领域。
-
为了进一步完善查询图像的预测掩码,我们还提出了一个任务适应性微调推理**(TFI)策略**,以快速适应未见过的领域。
-
为了避免over-fitting,在测试阶段,只有PATM随着support images和query predictions之间的原型相似度而不断更新,通过这种方式,预测的掩码被微调的PATM产生的校准特征所完善。
2 Related Work
这部分三个related work都是先介绍了这部分existing works,然后指出缺点,最后再引到Paper是如何克服不足、解决问题的,也可以说是有哪些创新点。
2.1 Domain adaptation for semantic segmentation
2.2 Few-shot learning
2.3 Few-shot semantic segmentation
3 Benchmark
- Table1比较了CD-FSS benchmark的4个数据集来源的不同点
- 表中FID度量4个数据集同PASCAL相比的domain shift
- 用KL-分歧来衡量foreground和background类别之间的相似性
- 然后分别介绍了4个数据集各自的详细信息
4 Problem Setting
介绍了符号、字母的表示意义。公式不太好打,看原文就可,很好懂。
5 Model
- model包括3个主要结构部分
- feature extraction backbone
- domain-adaptive hypercorrelation construction
- domain-agnostic correlation learning
- 处理步骤(流程图走一遍)
看paper即可。有first、then、next……很详细。
5.1 PATM:Pyramid Anchor-based Transformation Module
这部分大多是公式,由于我太菜的水平,这部分很多不懂,就不介绍了,借用其他博主的讲解,对应 PATNet 部分
5.2 TFI:Task-adaptive Fine-tuning Inference
尴尬,同5.1,看链接吧。
对应 任务自适应微调推理(TFI)策略 部分
6 Experiment
7 Conclusion
在本文中,我们将少镜头语义分割扩展到一个新任务,称为跨域少镜头语义分割(CD-FSS),其目的是学习一种模型,该模型可以仅用少数几个在看不见的域中分割新类像素级注释图像。此外,建立了一个新的 CD-FSS 基准来评估不同域转移下少镜头分割模型的跨域泛化能力。实验表明,由于跨域特征分布的巨大差异,SOTA 少镜头分割模型不能很好地泛化到来自不同域的类别。此外,我们提出了一种新模型 PATNet,通过将特定领域的特征转换为与领域无关的特征来解决 CD-FSS 问题,以便下游分割模块快速适应不可见的领域。广泛的实验结果表明,我们的方法优于现有技术,在域偏移下具有相当大的余量。我们相信这项工作将帮助社区以实用的方式了解现有方法,并深入研究实际应用的进一步进展。