CVPR 2024｜视觉基础大模型！

最新推荐文章于 2024-08-07 11:18:33 发布

深度学习技术前沿

最新推荐文章于 2024-08-07 11:18:33 发布

阅读量253

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzU2NDExMzE5Nw==&mid=2247540552&idx=2&sn=a69732e16516be1b7cbb5190c7d98686&chksm=fda0eb772847378ee8570a8fc647603f773193fec316591da04ea5180897ea28b2bca0e12616&scene=126&sessionid=0

版权

仅作学术分享，不代表本公众号立场，侵权联系删除

转载于：极市平台

Project page：https://zxwei.site/rein/

Paper：https://arxiv.org/abs/2312.04265

Code：https://github.com/w1oves/Rein

摘要

域泛化语义分割致力于提升模型在与训练场景相异的未知场景下的测试性能。近日，中科大和上海AI Lab的研究者们发布了一项相关研究，首次综合调研了多个视觉基础大模型（VFMs）在语义分割中所展现出的强大泛化性，并提出了参数高效微调架构‘Rein’以在分割场景进一步提升VFMs的泛化能力。Rein在经典的合成域到真实域、真实域到异常天气域等多个Benchmark上取得了SOTA性能，相关代码已开源并获数百Star：

不使用任何真实分割场景的图像和标签，在Cityscapes上取得了78.4%的mIoU；
仅使用Cityscapes训练集，在ACDC上取得了77.6%的mIoU。（在PaperWithCode对应Benchmark中排名第一）；
仅使用仿真数据和1/16的Cityscapes训练集，在Cityscapes上取得了82.5% mIoU。

图1. (a) VFMs表现出来的强大泛化性；(b) Rein仅需极少的可训练参数即可提升VFMs的泛化性能；(c) Rein优越的分割质量优于DGSS领域的经典方法。

0.背景

域泛化语义分割（Domain Generalized Semantic Segmentation, DGSS）致力于在不使用目标域图像和标签的前提下，提升模型在未知测试场景下的性能，即模型OOD（Out of Distribution）泛化性。常见的Benchmark主要包括：1）由合成数据泛化到Cityscapes等真实数据集；2）由真实数据Cityscapes泛化到ACDC等雨雪雾夜异常天气数据集。

传统的DGSS方法聚焦于ResNet、MobileNet等经典Backbone。近年来，视觉基础模型（Vision Foundation Models, VFMs）被大量提出，其从大规模预训练集中获取的优越泛化性也得到了社区的广泛认同。在综合研究和对比多种VFMs在语义分割任务上的泛化性后（如表1所示），中国科学技术大学和上海AI Lab的研究者们共同提出了‘Rein’，一种预训练参数冻结的参数高效微调方法，高质、高效地提升了VFMs在多种未知域上的语义分割性能。

表1. 冻结的VFMs在分割任务中的泛化性远高于之前的DGSS方法

1.方法

尽管VFMs展现出了高度泛化能力。然而：1）就数据层面而言，常用的语义分割数据集在规模上显著小于VFMs预训练数据集；2）就参数层面而言，VFMs参数量巨大导致训练资源消耗高。这两方面原因使得在源域上训练VFMs时易破坏大规模预训练时嵌入的知识，造成对源域的过拟合。为了解决这两个问题，在数据集规模和算力资源双受限的情境下训练参数量巨大的VFMs，Rein被设计为一种可训练参数量极小的参数高效微调方法。在Rein的训练过程中，VFMs的所有参数均被冻结，实现了对预训练知识的无损保留；同时，为了学习语义分割任务和街道场景的特定知识，Rein引入了一组和图像中实例目标高度关联的可学习token序列。在Backbone的每一层中，Rein均会计算一组feature和token的注意力，用以估计模型特征中不同位置所需要的修正幅度：

随后，Rein会将注意力图和Token再次进行矩阵乘，估计出特征图中应该修正的偏差量，并合并入特征图中送入Backbone的下一层：

这一机制使得Rein能够在实现实例级的动态特征修正。与一般的Decode Head或者Neck结构不同，Rein嵌入在VFMs的层与层之间，其修正后的特征图会被送入VFMs的下一层。冻结预训练参数的前提下，这种方式能够更加灵活地挖掘VFMs的潜力。

Token与Query的动态链接

Rein的一大特点是其中可学习token与图像中目标的连接关系。然而，在没有显示引导的情况下让模型学习这一连接关系并不简单。为了强化这一连接，Rein巧妙应用了近年流行的解码的——Mask2Former的特点。在MaskFormer、Mask2Former等一系列受到DETR启发的工作中，均存在着一组名为Query的向量。在分割过程中，每一个Query严格对应着图像中的一组Instance或Stuff。由于其出色的性能和广泛的认可，Rein的实验过程中主要采用Mask2Former作为Decode Head。在此前提下，Rein提出了一种动态link机制，将可学习token和Query紧密关联：

低秩可学习Token序列

多个不同的Token之间存在大量的共享信息，例如，汽车灯和自行车灯之间必然存在极大的相似性。为了最大程度减少冗余信息、获取更加精简的表示，Rein应用了双低秩矩阵相乘的策略来生成token序列：

其中，的值由实验确定，在文章中一般取16。

图2. Rein的整体方法框架

2.实验结果

表2. Rein提升了多个VFMs的泛化性能，并且仅使用1%的可训练参数

在多种VFMs上的有效性实验：实验结果如表2所示。在经典的这一Benchmark上， Rein一致地提升了VFMs的泛化性能，不仅强于冻结微调，甚至要高于全参数微调的性能。

表3. Rein的结果优于先进的领域泛化方法和参数高效微调方法

表4. 在和两个Benchmark上，Rein的结果均优于HGFormer

先进性实验：实验结果如表3和表4所示。在当使用相同的Backbone时，Rein的性能不仅远优于当下先进的领域泛化方法，也优于在其他领域常用的参数高效微调方法。

表5. 引入多种数据集下的性能变化

仿真-真实泛化实验：实验结果如表5所示。通过引入大量仿真数据集，Rein仅使用仿真数据在Cityscapes上达成了78.4%的mIoU。进一步引入少量真实数据后，Rein仅使用1/16的训练集，即在Cityscapes验证集上获取了82.5%的mIoU。

表6. 训练时间、显存和存储占用

资源消耗实验：实验结果如表6所示。相较于传统的全参数微调，Rein能够节省近2小时的训练时间和近1/3的显存占用。

3.总结

建立在对VFMs的语义分割泛化性能的充分调研基础上，Rein提出了一种在DGSS领域中驾驭VFMs的方法。通过一组可训练令牌序列，Rein有意义地提升了VFMs的泛化性，性能远超当下的SOTA DGSS方法。广泛的实验证明了Rein在仿真到真实、真实到真实等多个域上取得了优异的性能，并且能够降低VFMs在语义分割数据集上的训练难度。