CLIP-Adapter: Better Vision-Language Models with Feature Adapters

最新推荐文章于 2025-03-25 16:12:39 发布

我好想吃烤地瓜

最新推荐文章于 2025-03-25 16:12:39 发布

阅读量1.7k

点赞数

分类专栏： Prompt CV 文章标签：人工智能机器学习

本文链接：https://blog.csdn.net/weixin_48907099/article/details/131488484

版权

Prompt CV 专栏收录该内容

21 篇文章

订阅专栏

文章提出了一种新的方法，CLIP-Adapter，用于在文本和图像分支上添加特征适配器，以优化Few-Shot学习场景中的CLIP模型。与CoOp的可学习Prompt不同，CLIP-Adapter通过微调附加的BottleLinearLayers并使用残差连接保持原始CLIP模型的知识，从而提高鲁棒性和性能。这种方法解决了复杂特征工程和预训练模型在Few-Shot学习时的挑战。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Motivation

为避免复杂的特征工程，CoOp 等方法通过上下文优化来学习一个有效的 Prompt，Prompt Tuning 大多应用于文本分支，因此提出一种方法在文本 / 图像分支添加适配器。

Method

CLIP-Adapter 结构及对比

3.1 Classifier Weight Generation for Few-Shot Learning

3.2 CLIP-Adapter

与 CoOp 的 Learnable Prompt 不同，提出的替代框架通过微调附加的特征适配器，在 Few-Shot 实现更好的效果。以前广泛采用的 “预训练微调” 范式由于参数量巨大和训练样例的缺乏，在 Few-Shot 下无法对整个 CLIP 进行微调。因此提出了 CLIP-Adapter，它只在 CLIP 的语言和图像分支中附加少量额外的可学习 Bottle Linear Layers，而在几次微调期间保持原始CLIP主干冻结。

然而，带有附加层的 Naive Fine-Tuning 仍然可能导致过拟合。为解决该问题，提高 CLIP-Adapter 的鲁棒性，采用残差连接将微调后的知识与来自 CLIP 主干的原始知识动态融合。

$f=\text{Backbone}(\textbf{I}), p_i=\frac{\text{exp}(\textbf{W}^T_if)/\tau}{\sum^N_{j=1}\text{exp}(\textbf{W}^T_jf)/\tau}$ (1)
$\textbf{W}_i=\text{BERT}(\text{Tokenizer}([H; C_i]))$ (2)