【提示学习论文】AAPL: Adding Attributes to Prompt Learning for Vision-Language Models

一个很菜的小猪

已于 2024-09-07 11:11:27 修改

阅读量614

点赞数 7

分类专栏：提示学习文章标签：学习 prompt 语言模型

于 2024-08-24 16:19:12 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_51293984/article/details/141500676

版权

提示学习专栏收录该内容

25 篇文章

订阅专栏

AAPL: Adding Attributes to Prompt Learning for Vision-Language Models（2024 CVPR Workshop ）

问题：在unseen class上，性能提升有限
解决：在提示学习中引入对抗性标记嵌入adversarial token embedding，将低层次视觉增强特征与高层次类别信息解耦，解决传统零样本学习技术中的数据增强问题。
AdTriplet损失函数

对比CoCoOp和APPL

在这里插入图片描述

1、2：类别
A、B：不同的随机增强

动机

meta token不能有效的捕捉语义信息
提出 delta meta token

需要两个类别
两种随机增强（从SimCLR提出的14种无重复增强方法种随机选择两种）

对抗性三重损失

在这里插入图片描述

constraints-2

Δpai 1A
正对 Δpai 2A：不同类别，相同增强
反对 Δpai 1B：相同类别，不同增强

在这里插入图片描述

constraints-4

![[AAPLg5.png]]

总损失

![[AAPLg6.png]]

实验

base to new 76.01

总结

在CoCoOp上的改进，在原本的meta-net中，增加了Adtriplet loss。通过在两个类别，两种随机增强之间计算，更新meta-net。
然后将meta token加入到Learnable prompt里面，和CoCoOp一样

疑问

为什么这样做能达到解耦的效果？

增量元标记Δmeat tokens：从同一类别不同增强的图像中相减得到，主要捕捉图像增强的变化（低层次特征差异，与类别的高层语义信息无关）
使得增量元标记可以专注于增强引入的低层次特征，而非类别本身的特征

对抗三重损失的作用？

拉近同一类别的不同增强版本
推开不同类别的增量元标记，进一步区分类别之间的特征
帮助低层次的视觉特征（亮度、颜色）与高层次的语义特征（类别）之间，建立清晰的界限
使得模型学会增强特征与类别特征的区分能力，有效将两者解耦

可学习提示？

最后将增量元标记中的属性特定偏差引入到learnable prompt中，此时增量元标记包含低层次增强特征，让提示学习可以专注于高层次类别信息。

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。