这篇文章的标题是 "Stronger, Fewer, & Superior: Harnessing Vision Foundation Models for Domain Generalized Semantic Segmentation",作者是来自中国科学技术大学和上海人工智能实验室的研究团队。文章的核心贡献在于提出了一种新的微调方法,名为“Rein”,用于在领域泛化语义分割(DGSS)任务中高效地利用视觉基础模型(VFMs)。
背景与动机: 领域泛化语义分割(DGSS)的目标是训练模型在多个不同的领域(例如,从合成图像到真实世界图像)上都能表现良好,而不需要访问目标领域的数据。这项任务对于实际应用(如自动驾驶)非常重要,因为模型需要能够处理各种不同的场景和条件。VFMs是一类在多种计算机视觉任务中表现出色的预训练模型,它们通过在大规模数据集上进行自监督或半监督预训练来学习强大的视觉表示。
论文链接:Search | arXiv e-print repository
主要贡献:
-
评估VFMs在DGSS中的表现:文章首先评估了多种VFMs在DGSS任务中的表现,包括CLIP、MAE、SAM、EVA02和DINOv2。通过与现有的DGSS方法进行比较,作者发现即使在不进行微调的情况下&#