这篇文章的标题是 "Stronger, Fewer, & Superior: Harnessing Vision Foundation Models for Domain Generalized Semantic Segmentation",作者是来自中国科学技术大学和上海人工智能实验室的研究团队。文章的核心贡献在于提出了一种新的微调方法,名为“Rein”,用于在领域泛化语义分割(DGSS)任务中高效地利用视觉基础模型(VFMs)。
背景与动机: 领域泛化语义分割(DGSS)的目标是训练模型在多个不同的领域(例如,从合成图像到真实世界图像)上都能表现良好,而不需要访问目标领域的数据。这项任务对于实际应用(如自动驾驶)非常重要,因为模型需要能够处理各种不同的场景和条件。VFMs是一类在多种计算机视觉任务中表现出色的预训练模型,它们通过在大规模数据集上进行自监督或半监督预训练来学习强大的视觉表示。
论文链接:Search | arXiv e-print repository
主要贡献:
-
评估VFMs在DGSS中的表现:文章首先评估了多种VFMs在DGSS任务中的表现,包括CLIP、MAE、SAM、EVA02和DINOv2。通过与现有的DGSS方法进行比较,作者发现即使在不进行微调的情况下,VFMs也能显著超越以往的最佳模型。
-
提出Rein微调方法:由于VFMs拥有大量的可训练参数,直接在小型DGSS数据集上进行微调可能会导致过拟合。为了解决这个问题,作者提出了一种新的微调方法“Rein”,它通过较少的可训练参数来提高VFMs在DGSS任务中的泛化能力。
-
Rein方法的核心机制:Rein方法的核心是一组可学习的标记(tokens),每个标记与图像中的不同实例直接关联。这些标记通过与VFMs特征的点积操作生成一个注意力类似的相似度图,从而实现对每个实例的精确细化。此外,为了减少参数数量,Rein在不同层之间使用共享的MLP权重,并通过低秩矩阵来生成标记序列。
方法概述:
-
更强的预训练模型(Stronger):文章首先评估了各种VFMs在DGSS中的表现,并与现有的方法进行比较。结果表明,即使在不进行任何微调的情况下,VFMs也能显著超越以往的最佳模型。
-
更少的可训练参数(Fewer):尽管VFMs展示了令人印象深刻的泛化能力,但它们的大量可训练参数使得微调变得具有挑战性。为了解决这个问题,文章提出了一种使用较少可训练参数的微调策略,而不是简单地增加解码头的大小。
-
更优越的泛化能力(Superior):文章提出的“Rein”方法通过在VFMs的特征提取器中嵌入一个机制来主动细化和转发特征图。这种方法允许在每个层之间进行特征图的精确调整,从而在单一图像中为不同类别生成多样化的细化。
Rein方法的详细说明:
- 核心组件:Rein由一组可学习的标记(tokens)组成,每个标记与不同的实例直接关联。这些标记通过与VFMs特征的点积操作生成一个注意力类似的相似度图,从而实现对每个实例的精确细化。
- 层共享MLP权重:为了减少参数冗余,Rein在不同层之间使用共享的MLP权重。
- 低秩标记序列:Rein采用低秩矩阵来生成标记序列,显著减少了参数数量。
实验结果: 文章通过在多个数据集上的实验来验证Rein方法的有效性,包括Cityscapes、BDD100K和Mapillary。实验结果表明,Rein在各种设置下都显著超越了现有的DGSS方法,即使在只增加1%的可训练参数的情况下,也能达到与全参数微调相当的性能。
结论: 文章的结论强调了VFMs在DGSS领域的潜力,并通过提出的Rein方法展示了如何以参数高效的方式利用这些强大的预训练模型。Rein方法不仅可以提高模型的泛化能力,还可以作为现有基于视觉变换器的VFMs的即插即用适配器,提高训练效率。
支持的工作:
- 领域泛化研究:Rein方法可以显著提高在多个未见领域中的预测准确性,对于领域泛化研究具有重要意义。
- 语义分割任务:Rein方法可以直接应用于各种语义分割任务,提高模型对不同场景和图像风格的泛化能力。
- 计算机视觉应用:在自动驾驶、图像编辑、场景理解等领域,Rein方法可以帮助开发人员训练出更加鲁棒和泛化的视觉模型。
- 模型压缩和效率:由于Rein方法使用较少的可训练参数,它可以支持在资源受限的环境中部署高效的视觉模型。
代码链接: 文章中提到的Rein方法的代码可以在GitHub上找到,链接如下:
ttps://github.com/w1oves/Rein.git
对这个代码库的访问将提供实现Rein方法的具体细节和使用说明。
代码readme 解读:
CVPR 2024] Stronger, Fewer, & Superior: Harnessing Vision Foundation Models for Domain Generalized Semantic Segmentation
这是论文的标题,表明这篇论文将在2024年的计算机视觉与模式识别会议(CVPR)上发表。论文的主题是如何利用视觉基础模型(Vision Foundation Models,简称VFMs)来提高领域泛化语义分割(Domain Generalized Semantic Segmentation,简称DGSS)的性能。
bstract paper. It presents a robust fine-tuning method called
这部分提到了论文的摘要部分,但具体内容未给出。摘要通常会总结论文的主要内容和贡献。
🔥 News! 🔥 Rein is accepted in CVPR 2024!
这里宣布了一个重要消息,即Rein方法已经被接受在CVPR 2024上发表。
Using only the data from the Cityscapes training set, we achieved an average mIoU of 77.56% on the ACDC test set! This result ranks first in the DGSS methods on the ACDC benchmark! Checkpoint is avaliable at release. 🔥 Using only synthetic data (UrbanSyn, GTAV, and Synthia), Rein achieved an mIoU of 78.4\% on Cityscapes! Checkpoint is avaliable at release.
这两段宣布了Rein方法在两个不同数据集上取得的显著成果。首先,仅使用Cityscapes训练集的数据,Rein在ACDC测试集上达到了77.56%的平均交并比(mean Intersection over Union,简称mIoU),在ACDC基准测试中的DGSS方法中排名第一。其次,仅使用合成数据(UrbanSyn、GTAV和Synthia),Rein在Cityscapes数据集上达到了78.4%的mIoU。这些结果表明Rein方法的有效性,并且提供了模型检查点(checkpoint)以供下载和测试。
erformance Under Various Settings (DINOv2). config| log & checkpoint |+Synthia $\\rightarrow$ Cityscapes|68.1|-|-| ...
这部分列出了Rein方法在不同设置下的性能,特别是在DINOv2模型上的结果。表格显示了不同配置下的性能指标,例如使用Synthia数据集到Cityscapes数据集的迁移学习,取得了68.1%的mIoU。
Performance For Various Backbones (Trained on GTAV). config| log & checkpoint |ResNet101 |ImageNet1k|45.9| ...
这部分展示了Rein方法在不同基础模型(backbones)上的性能,这里是在GTAV数据集上训练的结果。例如,使用ResNet101作为基础模型,在ImageNet1k上训练,达到了45.9%的mIoU。
Try and Test Experience the demo: Users can open demo.ipynb in any Jupyter-supported editor to explore our demonstration.
这里邀请用户尝试和测试Rein方法。用户可以在任何支持Jupyter的编辑器中打开demo.ipynb
来探索演示。
nvironment Setup To set up your environment, execute the following commands:
这部分提供了设置实验环境的指导,包括安装依赖和配置环境的命令。
Dataset Preparation The Preparation is similar as DDB.
这里说明了数据集的准备方法,与DDB(可能是指某个数据集或基准测试)的准备方法相似。
Checkpoints: Download pre-trained weights from facebookresearch for testing. Place them in the project directory without changing the file name.
这部分指导用户如何下载预训练的权重,并放置在项目目录中以便进行测试。
valuation Generate full weights for testing in 512x512:
这部分提供了生成用于512x512分辨率测试的完整权重的命令。
Training Generate converted DINOv2 weights:
这部分提供了生成转换后的DINOv2权重的命令,用于训练。
itation If you find our code or data helpful, please cite our paper:
最后,如果用户发现代码或数据有用,作者请求引用他们的论文,并提供了BibTeX引用格式。