CVPR 2024|视觉基础大模型!

仅作学术分享,不代表本公众号立场,侵权联系删除

转载于:极市平台

6be568fea67e791ba928c73e16627882.png

Project page:https://zxwei.site/rein/

Paper:https://arxiv.org/abs/2312.04265

Code:https://github.com/w1oves/Rein

摘要

域泛化语义分割致力于提升模型在与训练场景相异的未知场景下的测试性能。近日,中科大和上海AI Lab的研究者们发布了一项相关研究,首次综合调研了多个视觉基础大模型(VFMs)在语义分割中所展现出的强大泛化性,并提出了参数高效微调架构‘Rein’以在分割场景进一步提升VFMs的泛化能力。Rein在经典的合成域到真实域、真实域到异常天气域等多个Benchmark上取得了SOTA性能,相关代码已开源并获数百Star:

  • 不使用任何真实分割场景的图像和标签,在Cityscapes上取得了78.4%的mIoU;

  • 仅使用Cityscapes训练集,在ACDC上取得了77.6%的mIoU。(在PaperWithCode对应Benchmark中排名第一);

  • 仅使用仿真数据和1/16的Cityscapes训练集,在Cityscapes上取得了82.5% mIoU。

30e7e07e2d0081a6523cf7d3b0935f95.png
图1. (a) VFMs表现出来的强大泛化性;(b) Rein仅需极少的可训练参数即可提升VFMs的泛化性能;(c) Rein优越的分割质量优于DGSS领域的经典方法。



0.背景

域泛化语义分割(Domain Generalized Semantic Segmentation, DGSS)致力于在不使用目标域图像和标签的前提下,提升模型在未知测试场景下的性能,即模型OOD(Out of Distribution)泛化性。常见的Benchmark主要包括:1)由合成数据泛化到Cityscapes等真实数据集;2)由真实数据Cityscapes泛化到ACDC等雨雪雾夜异常天气数据集。

传统的DGSS方法聚焦于ResNet、MobileNet等经典Backbone。近年来,视觉基础模型(Vision Foundation Models, VFMs)被大量提出,其从大规模预训练集中获取的优越泛化性也得到了社区的广泛认同。在综合研究和对比多种VFMs在语义分割任务上的泛化性后(如表1所示),中国科学技术大学和上海AI Lab的研究者们共同提出了‘Rein’,一种预训练参数冻结的参数高效微调方法,高质、高效地提升了VFMs在多种未知域上的语义分割性能。

e133006d195a3d359157c9147cc5bb9a.png
表1. 冻结的VFMs在分割任务中的泛化性远高于之前的DGSS方法

1.方法

尽管VFMs展现出了高度泛化能力。然而:1)就数据层面而言,常用的语义分割数据集在规模上显著小于VFMs预训练数据集;2)就参数层面而言,VFMs参数量巨大导致训练资源消耗高。这两方面原因使得在源域上训练VFMs时易破坏大规模预训练时嵌入的知识,造成对源域的过拟合。为了解决这两个问题,在数据集规模和算力资源双受限的情境下训练参数量巨大的VFMs,Rein被设计为一种可训练参数量极小的参数高效微调方法。在Rein的训练过程中,VFMs的所有参数均被冻结,实现了对预训练知识的无损保留;同时,为了学习语义分割任务和街道场景的特定知识,Rein引入了一组和图像中实例目标高度关联的可学习token序列。在Backbone的每一层中,Rein均会计算一组feature和token的注意力,用以估计模型特征中不同位置所需要的修正幅度:

d34bb3e3b371342617b6341a01a1a767.png c66e9ef45113957506f315f5a7f7f508.png

随后,Rein会将注意力图和Token再次进行矩阵乘,估计出特征图中应该修正的偏差量,并合并入特征图中送入Backbone的下一层:

829c575bf33075237f92786964695715.png

这一机制使得Rein能够在实现实例级的动态特征修正。与一般的Decode Head或者Neck结构不同,Rein嵌入在VFMs的层与层之间,其修正后的特征图会被送入VFMs的下一层。冻结预训练参数的前提下,这种方式能够更加灵活地挖掘VFMs的潜力。

Token与Query的动态链接

Rein的一大特点是其中可学习token与图像中目标的连接关系。然而,在没有显示引导的情况下让模型学习这一连接关系并不简单。为了强化这一连接,Rein巧妙应用了近年流行的解码的——Mask2Former的特点。在MaskFormer、Mask2Former等一系列受到DETR启发的工作中,均存在着一组名为Query的向量。在分割过程中,每一个Query严格对应着图像中的一组Instance或Stuff。由于其出色的性能和广泛的认可,Rein的实验过程中主要采用Mask2Former作为Decode Head。在此前提下,Rein提出了一种动态link机制,将可学习token和Query紧密关联:

c0ed8c9161c62bb17026cecd54f2dcc6.png

低秩可学习Token序列

多个不同的Token之间存在大量的共享信息,例如,汽车灯和自行车灯之间必然存在极大的相似性。为了最大程度减少冗余信息、获取更加精简的表示,Rein应用了双低秩矩阵相乘的策略来生成token序列:

869cec4e2c586a69f998180ebffa14db.png

其中,的值由实验确定,在文章中一般取16。

e3230cc078f5f3160b3a92b45e781a5b.png
图2. Rein的整体方法框架

2.实验结果

9fdf66a152286f02e2b4208e43b3155f.png
表2. Rein提升了多个VFMs的泛化性能,并且仅使用1%的可训练参数

在多种VFMs上的有效性实验:实验结果如表2所示。在经典的这一Benchmark上, Rein一致地提升了VFMs的泛化性能,不仅强于冻结微调,甚至要高于全参数微调的性能。

69b7339bf621a447b56b06332252fafc.png
表3. Rein的结果优于先进的领域泛化方法和参数高效微调方法

eb1481c6149b4b779f50544e9bcfc83f.png表4. 在和两个Benchmark上,Rein的结果均优于HGFormer

先进性实验:实验结果如表3和表4所示。在当使用相同的Backbone时,Rein的性能不仅远优于当下先进的领域泛化方法,也优于在其他领域常用的参数高效微调方法。

1a0f2279a362930c8cc8a3be8db77d98.png
表5. 引入多种数据集下的性能变化

仿真-真实泛化实验:实验结果如表5所示。通过引入大量仿真数据集,Rein仅使用仿真数据在Cityscapes上达成了78.4%的mIoU。进一步引入少量真实数据后,Rein仅使用1/16的训练集,即在Cityscapes验证集上获取了82.5%的mIoU。

a57c16bec1331a3ec9db085cccfe09d9.png
表6. 训练时间、显存和存储占用

资源消耗实验:实验结果如表6所示。相较于传统的全参数微调,Rein能够节省近2小时的训练时间和近1/3的显存占用。

3.总结

建立在对VFMs的语义分割泛化性能的充分调研基础上,Rein提出了一种在DGSS领域中驾驭VFMs的方法。通过一组可训练令牌序列,Rein有意义地提升了VFMs的泛化性,性能远超当下的SOTA DGSS方法。广泛的实验证明了Rein在仿真到真实、真实到真实等多个域上取得了优异的性能,并且能够降低VFMs在语义分割数据集上的训练难度。

推荐阅读

欢迎大家加入DLer-计算机视觉技术交流群!

大家好,群里会第一时间发布计算机视觉方向的前沿论文解读和交流分享,主要方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。

进群请备注:研究方向+学校/公司+昵称(如图像分类+上交+小明)

2345c80112621618a7bd4884f920dd7f.jpeg

👆 长按识别,邀请您进群!

d64021ed4d9df90187ce68c3b05af915.gif

计算机视觉模型构建是指使用深度学习技术构建能够实现高级视觉任务的模型。这些模型通常由多个卷积神经网络(CNN)层和全连接层组成,通过对大量标注数据进行训练,可以实现图像分类、目标检测、语义分割等任务。 在计算机视觉模型构建中,常用的网络架构包括: 1. 卷积神经网络(CNN):CNN是计算机视觉任务中最常用的网络架构,通过卷积层、池化层和全连接层来提取图像特征并进行分类或检测。 2. 残差网络(ResNet):ResNet是一种深度残差学习网络,通过引入跳跃连接来解决深层网络训练中的梯度消失问题,提高了模型的性能。 3. 注意力机制(Attention):注意力机制可以使模型在处理图像时更加关注重要的区域,提高模型的性能和鲁棒性。 4. 生成对抗网络(GAN):GAN是一种由生成器和判别器组成的网络结构,通过对抗训练的方式生成逼真的图像。 在计算机视觉模型构建中,还需要考虑以下几个方面: 1. 数据集:构建大模型需要大量的标注数据集,可以使用公开的数据集如ImageNet、COCO等,也可以自己收集和标注数据。 2. 训练策略:选择适当的优化算法、学习率调整策略和正则化方法,以提高模型的泛化能力和鲁棒性。 3. 模型评估:使用合适的评价指标来评估模型的性能,如准确率、召回率、精确率等。 4. 模型部署:将训练好的模型部署到实际应用中,可以使用深度学习框架如TensorFlow、PyTorch等进行模型的导出和部署。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值