WACV2024#GIPCOL: Graph-Injected Soft Prompting for Compositional Zero-Shot Learning

最新推荐文章于 2024-06-13 10:56:25 发布

神拳小江南阿

最新推荐文章于 2024-06-13 10:56:25 发布

阅读量883

点赞数 13

分类专栏： soft prompt CZSL 文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/xucan_123/article/details/136119224

版权

soft prompt 同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

CZSL

2 篇文章 1 订阅

订阅专栏

组合零样本学习（CZSL）中Soft Prompt相关工作汇总（二）

文章目录

- 组合零样本学习（CZSL）中Soft Prompt相关工作汇总（二）
- - WACV2024#GIPCOL: Graph-Injected Soft Prompting for Compositional Zero-Shot Learning

WACV2024#GIPCOL: Graph-Injected Soft Prompting for Compositional Zero-Shot Learning

Abstract

本文提出GIPCOL模型来更好的探索VLMs中基于prompt学习框架的组合零样本学习（CZSL）能力
GIPCOL的soft prompt由1.可学习前缀向量；2.属性标签；3.对象标签组成→Learnable prefix vectors+Attr Emb+Obj Emb，其中的属性和对象标签被指定为组合图中的节点。组合图是基于从训练数据中提取的对象和属性的组合结构构建的，之后经过GNN将更新的概念表示输入到软提示，以捕获该组合结构，以便更好地为CZSL进行提示。
主要挑战是1)零样本设置没有新组合的训练数据；2)模型应该学习基本概念之间的组合规则；3)由于零样本设置导致的从训练数据到测试数据的分布偏移，这种偏移会导致学习的模型过度适应于已看到的组合,从而难以推广到新的组合。
之前的解决方案通常构建一个共享的嵌入空间来计算图像和seen图像-文本对之间的匹配分数,并在空间上添加不同的泛化约束以规范空间,期望学习的嵌入能够编码组合特性。鉴于大型VLMs在下游任务上的令人印象深刻的表现,在这项工作中,我们尝试从提示大型VLMs的角度来解决CZSL问题,具体来说就是使用CLIP。
主要工作：
1.与CSP不同，GIPCOL重构CLIP用于CZSL，将软提示中的前缀向量设置为可学习参数；
2.通过在训练集的已见对中构建组合图，来捕捉概念（concepts）间的组合结构。元素概念和组合概念作为图中的节点（nodes），组合图对这些概念之间可行的拓扑组合进行建模
3.使用GNN模块在构造的合成图中基于它们的邻近信息来更新元素标签的表示→更新后的元素嵌入被用作软提示符中的类标签。
即，可学习的前缀向量和gnn更新的元素概念构成了GIPCOL的软提示符，并共同探索CLIP对CZSL的学习。

Methods

在这里插入图片描述

分析：
通过模型流程图可以对整体模型比较直接的进行拆解：
1.组合图部分（左上角）：通过训练数据中的seen（即“已见过的”）组合概念来构建组合图，节点和边的连接情况为“old city”-“old”-“city”（组合概念和拆分后的对象、属性之间都有连接）
增加了两个可学习的模块：
2.GNN模块：在构建的soft prompt中捕捉属性和对象的组合结构用于实现更好的“组合概念”表示，输入为组合图以及Init Concept Embeddings（来自于CLIP中的初始化的概念嵌入）
→1+2部分得到**更新后的概念嵌入（Attr Emb+Obj Emb）**作为可学习前缀向量的一部分
3.可学习的前缀向量：用于增加更多的可学习参数来表示组合概念，重构CLIP用于组合学习；
详：这些向量前置于“属性-对象”嵌入，并作为组合表示的一部分；这些前缀向量通过在训练期间通过CLIP回流的梯度进行微调。
详：创新的使用图的组合结构来促进组合学习中的prompt工程，如CGE和GIPCOL的区别：a).GIPCOL中的GNN可以帮助构建CZSL的软提示；而CGE中的GNN则将概念投射到嵌入空间中，扮演着文本编码器的角色；b).GIPCOLL冻结CLIP的文本和可视编码器，以利用CLIP高效的多模态对齐能力用于CZSL;CGE需要训练GNN和视觉编码器来提高竞争性能
在这里插入图片描述

其中1).节点嵌入V：(|a|+|o|+|c|)∗d，包含元素概念节点a,o（用CLIP的嵌入向量进行初始化）和组合概念节点c（元素节点的平均嵌入）,d是特征维度 →利用GNN来融合所构建的组合图中的信息+更新概念的表示
2).组合图构建Ԑ：给定K×K的邻接矩阵，K=|c|+|a|+|o|，在自联通的边之外添加三条边(c-o)(c-a)(a-o);组合概念起着桥梁作用，帮助连接元素概念;由于zero-shot的设置，只有元素概念被用来构造组合的prompting
3).GNN模块：
用了个GCN模型：H是节点在l层的表示；A加了自连接的邻接矩阵；D为对角节点度矩阵；Φ为l层可学习的权值矩阵；
在这里插入图片描述

冻结CLIP的文本和视觉编码器，并专注于构建其文本提示，以解决合成概念学习；GIPCOL中文本端得到的soft prompt进入冻结的CLIP文本编码器，图像也进入冻结的CLIP图像编码器
4.冻结的CLIP文本编码器：
在这里插入图片描述
作为整体的soft prompt得到组合概念的表示：

5.冻结的CLIP图像编码器：

归一化以进行后续的相似度计算
6.对齐组合概念和图像：
在获得组合概念和图像的向量之后，计算图像x属于类别c的概率

·是内积，K是训练集中属性-对象对的个数
在计算出概率之后，利用正则化交叉熵损失对GIPCOL的前缀向量Θ和GNN参数Φ进行更新：其中λ1和λ2分别是控制前缀向量和GCN权值衰减的超参数。
在这里插入图片描述
推理部分：
给定一幅图像，首先使用微调的前缀向量和GNN为所有目标概念构造软提示；再使用CLIP的冻结文本和视觉编码器来获得图像向量x和目标概念向量集Ctareget；最后使用余弦测量从Ctarget中选择最相似的attro -obj对作为合成标签，如下所示:
在这里插入图片描述
prompt方法比较：
都保持图像不变，学习构造CLIP的文本提示来学习组合概念

a)学习元素向量；b).学习前缀向量；c).学习元素+前缀向量，但都没有考虑到“组合的结构”
d).为了在软提示中注入更多的语义信息，引入了元网络(Meta-Net)，并尝试根据每个图像输入修改前缀向量。它使用实例级的信息，而不是用于CZSL的全局组合信息,不过这种实例级提示会导致训练效率低下，并消耗大量计算资源

总结

本文是WACV中CZSL方向比较新颖的一篇文章，最后的prompt方法比较部分也综合性的对比总结整理了几种soft prompt方法；以上文的CSP为baseline并与CGE进行了对比（主要差距在组合结构和对GNN的使用目的上），质量较高故此整理。

神拳小江南阿

关注

13
点赞
踩
29

收藏

觉得还不错? 一键收藏
1
评论
WACV2024#GIPCOL: Graph-Injected Soft Prompting for Compositional Zero-Shot Learning

组合零样本学习（CZSL）中Soft Prompt相关工作汇总（二）
复制链接

扫一扫