【提示学习论文】TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model

最新推荐文章于 2024-07-19 15:16:23 发布

一个很菜的小猪

最新推荐文章于 2024-07-19 15:16:23 发布

阅读量899

点赞数 16

分类专栏：提示学习文章标签：学习 prompt 语言模型

本文链接：https://blog.csdn.net/weixin_51293984/article/details/138866110

版权

提示学习专栏收录该内容

20 篇文章 2 订阅

订阅专栏

TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model（CVPR2024）

基于文本的类感知提示调优的VLM
KgCoOp为baseline，进行改进，把 $w_{clip}$ 进行投影，然后与Learnable prompts进行结合。

Abstract

近年来，通过可学习的域共享或图像条件的文本tokens，促进生成适用于特定任务的分类器

问题：
这些textual tokens对unseen域具有有限的泛化能力，不能动态地适应测试类的分布

解决：
提出了新的基于文本的类感知提示调优（TCP，Textual-based Class-aware Prompt）。显式地结合关于类的先验知识，增强它们的可辨别性。利用文本知识嵌入（TKE），映射高泛化性的类级文本知识，到类感知文本tokens。通过无缝地将这些类感知提示集成到Text Encoder中，可以生成一个动态的类感知分类器，以增强对不可见域的可辨别性。
推断阶段，TKE动态地生成与unseen类相关的类感知提示，可作为即插即用的模型与现有方法轻松结合。

1 Introduction

图像条件文tokens封装了每个图像的特定知识，特别是测试图像，从而更容易泛化到unseen类。

3 方法

TKE将一般类级的textual embedding转化成类感知提示，然后与Learnable tokens 结合。

3.2 基于文本的类感知提示提示调优

TKE：投影class-level embedding $W^{clip}$ ，得到class-aware prompt T
![[TCPg2.png]]

![[TCPg3.png]]

![[TCPg4.png]]

![[TCPg1.png]]

TKE包括两层

下投影层
使用权重 $W_{down}$ 将 $W^{clip}$ 其投成低维特征
上投影层
使用权重 $W_{up}$ 将 $W^{dwon}$ 其投成高维特征
得到
![[TCPg5.png]]
再重塑成
![[TCPg6.png]]
插入到文本编码器的中间层

4 实验

作者将其分为tp、vp、dtp、dvp，比较了近年来的方法
在这里插入图片描述

消融实验

Prompt长度：M=8最好
不同模板的效果：可学习prompt最好
Dmid的作用：128时效果最好
类感知prompt拼接到哪：第8层最好

一个很菜的小猪

关注

16
点赞
踩
28

收藏

觉得还不错? 一键收藏
1
评论
【提示学习论文】TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model

近年来，通过可学习的域共享或图像条件的文本tokens，促进生成适用于特定任务的分类器问题：这些textual tokens对unseen域具有有限的泛化能力，不能动态地适应测试类的分布解决：提出了新的基于文本的类感知提示调优（TCP，Textual-based Class-aware Prompt）。显式地结合关于类的先验知识，增强它们的可辨别性。利用文本知识嵌入（TKE），映射高泛化性的类级文本知识，到类感知文本tokens。
复制链接

扫一扫

专栏目录