【图像分割 2024 ICLR】Conv-LoRA
论文题目:CONVOLUTION MEETS LORA: PARAMETER EFFICIENT FINETUNING FOR SEGMENT ANYTHING MODEL
中文题目:卷积满足lora:分段任意模型的参数有效微调
论文链接:https://arxiv.org/abs/2401.17868
论文代码:https://github.com/autogluon/autogluon
论文团队:清华大学
发表时间:
DOI:
引用:
引用数:
摘要
分割任意模型(SAM)是图像分割的基本框架。虽然它在典型场景中表现出显著的零射击泛化,但当应用于医学图像和遥感等专业领域时,其优势就会减弱。为了解决这一限制,本文介绍了一种简单而有效的参数高效微调方法——卷积- lora。通过将超轻量级卷积参数集成到低秩自适应(Low-Rank Adaptation, LoRA)中,卷积LoRA可以将图像相关的归纳偏差注入到普通的ViT编码器中,进一步强化SAM的局部先验假设。值得注意的是,卷积lora不仅保留了SAM广泛的分割知识,而且恢复了SAM受前景-背景分割预训练限制的高级图像语义学习能力。在跨多个领域的各种基准测试中进行的综合实验强调了ConvLoRA在将SAM应用于现实世界的语义分割任务方面的优势
1. 介绍
近年来,AI社区出现了一系列基础模型的爆炸式发展,如CLIP (Radford et al ., 2021)、GPT-4 (OpenAI, 2023)和viti - 22b (Dehghani et al ., 2023)。最近,Segment Anything (SAM) (Kirillov et al, 2023)作为图像分割的基础模型出现了,SAM是一个在超过10亿个掩模和1100万张图像上进行预训练的提示模型。尽管它在通用目标分割上的零射击性能令人印象深刻,但在某些领域的许多现实世界分割任务上表现不佳(Tang等人,2023;Ji et al ., 2023;Zhou et al ., 2023),例如自然图像(Borji et al ., 2019;Fan et al ., 2020a)、农业(Sriwastwa et al ., 2018)、遥感(Xu et al ., 2018)和医学图像(Fan et al ., 2020b)。
遵循预训练-调整范式(Dosovitskiy et al ., 2020;他等人,2022;Liu et al ., 2021a),在下游任务上对SAM进行微调以提高其性能是很自然的。然而,现有的作品(Zhang & Liu, 2023;Chen et al ., 2023;Shaharabany等人,2023)未能分析或解决SAM固有的某些限制。1) SAM的图像编码器是一个普通的ViT,众所周知,它缺乏视觉特定的归纳偏差(Chen et al, 2022),这对密集预测很有用。2) SAM的预训练本质上是一个二元掩码预测任务,在给定一个提示的情况下,它将前景对象从背景中分离出来。低级掩模预测预训练阻碍了SAM捕获高级图像语义信息的能力,这些信息对于多类语义分割等任务至关重要。
为了解决上述限制并保留SAM在预训练中获得的有价值的分割知识,我们对一小部分(额外的)模型参数进行微调,同时冻结SAM的大部分预训练权值,因此称为参数有效微调(PEFT)。这就提出了一个问题:PEFT能不能
在本文中,我们通过深入研究低秩自适应(Low-Rank Adaptation, LoRA),提出了一种新的PEFT方法,命名为卷积-LoRA (Hu et al ., 2021)。LoRA在SAM编码器的每个变压器层中引入了精简的可训练线性投影层,从而帮助恢复SAM编码器提取高级语义信息的能力。我们的实验表明,LoRA优于广泛采用的视觉提示调优(visual prompt tuning, VPT) (Jia et al ., 2022),特别是在多类语义分割任务中。在LoRA的基础上,卷积-LoRA在瓶颈结构中集成了轻量级卷积层。卷积可以通过局部空间操作引入与图像相关的局部先验(即像素与其相邻像素的相关性强于其远处像素)(Chen et al, 2022)。
此外,考虑到目标尺度的潜在变化,必须将局部先验注入到图像特征的适当尺度中。为此,卷积- lora从混合专家(MoE)的概念中获得灵感(Shazeer等人,2017),并结合了多个并行卷积专家,每个专家都专注于不同的特征尺度。考虑到ViT以固定的尺度处理图像特征,通常从原始分辨率降采样16倍,卷积- lora中的每个专家最初以特定的尺度恢复图像特征,应用卷积操作,然后将特征恢复到默认尺度。与vit适配器(Chen et al ., 2022)和Swin Transformer等视觉专用变压器(Liu et al ., 2021a)相比,卷积- lora提供了一种隐式的方式来强制执行多尺度局部先验,假设它可以利用默认尺度的图像特征来重建更高尺度的特征信息。幸运的是,SAM的监督预训练涉及到各种尺度的掩模,使ViT能够获得超出默认尺度的图像特征知识。
本着PEFT的精神,我们还删除了提示编码器,并在掩码解码器中添加了轻量级mlp,用于多类预测。这个简单的修改将SAM转换为一个端到端模型,可以在二进制和多类语义分割应用程序上进行微调。总的来说,我们的贡献可以总结如下:
- 我们提出了一种创新的pet技术convo - lora。通过引入补充卷积运算,convl - lora从处理普通ViT的局限性的角度加强了SAM的局部先验。
- 卷积- lora使用MoE对动态选择适当特征尺度的过程进行建模,以注入特定于视觉的归纳偏差。
- 我们的研究表明,SAM的预训练阻碍了其ViT编码器学习高级图像语义信息的能力。但是,LoRA展示了帮助SAM恢复这一关键能力的潜力。
- 我们进行了广泛的基准测试,涵盖不同的领域,包括自然图像、农业、遥感和医疗保健。卷积- lora在各种下游任务中始终表现出优于其他PEFT技术的性能。
2. 相关工作
2.1 参数有效微调(PEFT)。
参数高效微调(PEFT)通过有选择地微调一小部分模型参数,同时保持大部分参数不变,从而最大限度地减少计算和存储需求。PEFT包括基于适配器的技术、选择性参数调优、提示驱动的微调和自然语言处理(NLP)中出现的低秩自适应(LoRA)等方法。在适配器范式中(Houlsby等人,2019;Hu et al ., 2021;Sung等人,2022),在变压器层内插入紧凑型模块,以及其他方法(Guo等人,2020;Zaken等人,2021)涉及对预训练主干的一小部分参数进行微调。即时调谐(Lester et al ., 2021;Li & Liang, 2021)为输入或中间序列添加了自适应令牌,LoRA (Hu et al, 2021)在变压器层中引入了可训练的低秩矩阵,用于权重更新。
PEFT技术在计算机视觉(CV)领域也被证明是有效的。视觉提示调谐(VPT) (Jia et al ., 2022)将提示调谐概念(Lester et al ., 2021)应用于图像分类,而尺度和移位特征调制(SSF) (Lian et al ., 2022)使用尺度和移位参数来调制图像分类器中的视觉特征。Convpass (Jie & Deng, 2022)引入了卷积瓶颈来提高ViT在图像分类中的性能。在我们的研究中,我们专注于在语义分割任务中为SAM开发PEFT,特别是在默认尺度之外执行多尺度局部先验,将我们的方法与Convpass区分开来。
2.2 分割模型。
FCN (Long et al ., 2015)是一种关键的深度图像分割模型,它直接从图像中生成逐像素分割图。U-Net (Ronneberger et al ., 2015)采用具有跳过连接的编码器-解码器结构来保留细粒度的空间信息。Deeplab (Chen et al ., 2017a)为多尺度上下文集成了非均匀(扩展)卷积,而PSPNet (Zhao et al ., 2017)使用金字塔池模块。DANet (Fu et al ., 2019)、SANet (Zhong et al ., 2020)和EMA (Li et al ., 2019)利用了上下文依赖的注意机制。变压器架构,如PVT (Wang等人,2021)、Swin (Liu等人,2021b)、CvT (Wu等人,2021)、CoaT (Xu等人,2021)、LeViT (Graham等人,2021)、Segformer (Xie等人,2021a)和PVT v2 (Wang等人,2022)带来了各种改进。SAM (Ji et al, 2023)是分割领域的最新突破,它提供了一种通用的方法来分割图像中不同的物体和区域。由于预训练数据集中缺乏高级语义信息和潜在的领域偏差,建议对下游任务进行微调SAM。
2.3 微调SAM
一些先前的作品(Chen et al ., 2023;张刘,2023;Wu等,2023;Chai et al ., 2023;Shaharabany等,2023;Hu et al ., 2023;Wang等人,2023)探索下游任务的微调SAM。这些方法包括调整SAM的掩码解码器或将参数有效的调整方法与SAM的图像编码器集成。其中一些(例如,Chen et al ., 2023;张刘,2023;Shaharabany等人,2023))提供端到端解决方案来自动化SAM。我们的方法进一步解决了SAM图像编码器的结构限制,通过引入卷积操作来捕获视觉特定的归纳偏差。SAM的预训练阻碍了其ViT编码器学习高级语义信息的能力。我们还将SAM转换为端到端的语义分割模型,并对体系结构进行了较小的调整。
2.4 Mixture-of-Experts
混合专家(MoE)的目的是扩大模型容量,同时引入较小的计算开销。MoE层利用多个专家来增强模型容量,同时使用门控网络来调节稀疏性以节省计算量。前馈网络(FFN)通常被用作专家的默认选择(Shazeer等人,2017;Riquelme等人,2021;Bao等,2022;Du et al ., 2022;Zhou et al ., 2022;Fedus et al, 2022)。一些努力(Zuo et al ., 2021;Zhou et al ., 2022)专注于更有效的门控机制。
在我们的工作中,我们利用了MoE的概念,而不是为了改进它。我们从三个方面比较了我们工作中使用的MoE与原始MoE: 1) MoE的原始目标是在不过度增加计算开销的情况下扩展模型容量,而我们的目标是在不同尺度的特征映射中动态注入局部先验。2) MoE专家的结构通常是相同的,而我们的不是。每个专家都专门从事特定的缩放操作在我们的方法中。3)虽然MoE主要用于预训练,但我们将MoE作为下游任务的参数高效调优的一部分。
3. 方法
3.1 Conv-LoRA
LoRa。首先,让我们简要回顾一下LoRA的设计(Hu等人,2021),它使用编码器-解码器结构对权重更新施加低秩约束(图2 (a))。它冻结了预训练的模型权重,并将小的可训练秩分解矩阵注入到变压器体系结构的每一层。具体来说,给定一个预训练的权矩阵 W 0 ∈ R b × a W_0\in\mathbb{R}^{b\times a} W0∈Rb×a, LoRA在其旁边增加一对线性编码器 W e W_e We和解码器 W d W_d Wd,即可训练的秩分解矩阵。我们和Wd满足低秩约束,我们