WACV2024#GIPCOL: Graph-Injected Soft Prompting for Compositional Zero-Shot Learning

组合零样本学习(CZSL)中Soft Prompt相关工作汇总(二)

WACV2024#GIPCOL: Graph-Injected Soft Prompting for Compositional Zero-Shot Learning

Abstract

本文提出GIPCOL模型来更好的探索VLMs中基于prompt学习框架的组合零样本学习(CZSL)能力
GIPCOL的soft prompt由1.可学习前缀向量;2.属性标签;3.对象标签组成→Learnable prefix vectors+Attr Emb+Obj Emb,其中的属性和对象标签被指定为组合图中的节点。组合图是基于从训练数据中提取的对象和属性的组合结构构建的,之后经过GNN将更新的概念表示输入到软提示,以捕获该组合结构,以便更好地为CZSL进行提示。
主要挑战是1)零样本设置没有新组合的训练数据;2)模型应该学习基本概念之间的组合规则;3)由于零样本设置导致的从训练数据到测试数据的分布偏移,这种偏移会导致学习的模型过度适应于已看到的组合,从而难以推广到新的组合。
之前的解决方案通常构建一个共享的嵌入空间来计算图像和seen图像-文本对之间的匹配分数,并在空间上添加不同的泛化约束以规范空间,期望学习的嵌入能够编码组合特性。鉴于大型VLMs在下游任务上的令人印象深刻的表现,在这项工作中,我们尝试从提示大型VLMs的角度来解决CZSL问题,具体来说就是使用CLIP。
主要工作:
1.与CSP不同,GIPCOL重构CLIP用于CZSL,将软提示中的前缀向量设置为可学习参数;
2.通过在训练集的已见对中构建组合图,来捕捉概念(concepts)间的组合结构。元素概念和组合概念作为图中的节点(nodes),组合图对这些概念之间可行的拓扑组合进行建模
3.使用GNN模块在构造的合成图中基于它们的邻近信息来更新元素标签的表示→更新后的元素嵌入被用作软提示符中的类标签。
即,可学习的前缀向量和gnn更新的元素概念构成了GIPCOL的软提示符,并共同探索CLIP对CZSL的学习。

Methods

在这里插入图片描述

分析:
通过模型流程图可以对整体模型比较直接的进行拆解:
1.组合图部分(左上角):通过训练数据中的seen(即“已见过的”)组合概念来构建组合图,节点和边的连接情况为“old city”-“old”-“city”(组合概念和拆分后的对象、属性之间都有连接)
增加了两个可学习的模块:
2.GNN模块:在构建的soft prompt中捕捉属性和对象的组合结构用于实现更好的“组合概念”表示,输入为组合图以及Init Concept Embeddings(来自于CLIP中的初始化的概念嵌入)
→1+2部分得到**更新后的概念嵌入(Attr Emb+Obj Emb)**作为可学习前缀向量的一部分
3.可学习的前缀向量:用于增加更多的可学习参数来表示组合概念,重构CLIP用于组合学习;
详:这些向量前置于“属性-对象”嵌入,并作为组合表示的一部分;这些前缀向量通过在训练期间通过CLIP回流的梯度进行微调。
详:创新的使用图的组合结构来促进组合学习中的prompt工程,如CGE和GIPCOL的区别:a).GIPCOL中的GNN可以帮助构建CZSL的软提示;而CGE中的GNN则将概念投射到嵌入空间中,扮演着文本编码器的角色;b).GIPCOLL冻结CLIP的文本和可视编码器,以利用CLIP高效的多模态对齐能力用于CZSL;CGE需要训练GNN和视觉编码器来提高竞争性能
在这里插入图片描述

其中1).节点嵌入V:(|a|+|o|+|c|)∗d,包含元素概念节点a,o(用CLIP的嵌入向量进行初始化)和组合概念节点c(元素节点的平均嵌入),d是特征维度 →利用GNN来融合所构建的组合图中的信息+更新概念的表示
2).组合图构建Ԑ:给定K×K的邻接矩阵,K=|c|+|a|+|o|,在自联通的边之外添加三条边(c-o)(c-a)(a-o);组合概念起着桥梁作用,帮助连接元素概念;由于zero-shot的设置,只有元素概念被用来构造组合的prompting
3).GNN模块:
用了个GCN模型:H是节点在l层的表示;A加了自连接的邻接矩阵;D为对角节点度矩阵;Φ为l层可学习的权值矩阵;
在这里插入图片描述

冻结CLIP的文本和视觉编码器,并专注于构建其文本提示,以解决合成概念学习;GIPCOL中文本端得到的soft prompt进入冻结的CLIP文本编码器,图像也进入冻结的CLIP图像编码器
4.冻结的CLIP文本编码器
在这里插入图片描述
作为整体的soft prompt得到组合概念的表示:
在这里插入图片描述
5.冻结的CLIP图像编码器
在这里插入图片描述
归一化以进行后续的相似度计算
6.对齐组合概念和图像
在获得组合概念和图像的向量之后,计算图像x属于类别c的概率
在这里插入图片描述
·是内积,K是训练集中属性-对象对的个数
在计算出概率之后,利用正则化交叉熵损失对GIPCOL的前缀向量Θ和GNN参数Φ进行更新:其中λ1和λ2分别是控制前缀向量和GCN权值衰减的超参数。
在这里插入图片描述
推理部分:
给定一幅图像,首先使用微调的前缀向量和GNN为所有目标概念构造软提示;再使用CLIP的冻结文本和视觉编码器来获得图像向量x和目标概念向量集Ctareget;最后使用余弦测量从Ctarget中选择最相似的attro -obj对作为合成标签,如下所示:
在这里插入图片描述
prompt方法比较
都保持图像不变,学习构造CLIP的文本提示来学习组合概念
在这里插入图片描述
a)学习元素向量;b).学习前缀向量;c).学习元素+前缀向量,但都没有考虑到“组合的结构”
d).为了在软提示中注入更多的语义信息,引入了元网络(Meta-Net),并尝试根据每个图像输入修改前缀向量。它使用实例级的信息,而不是用于CZSL的全局组合信息,不过这种实例级提示会导致训练效率低下,并消耗大量计算资源

总结

本文是WACV中CZSL方向比较新颖的一篇文章,最后的prompt方法比较部分也综合性的对比总结整理了几种soft prompt方法;以上文的CSP为baseline并与CGE进行了对比(主要差距在组合结构和对GNN的使用目的上),质量较高故此整理。

  • 13
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值