【提示学习论文】CoCoLe：Conceptual Codebook Learning for Vision-Language Models

最新推荐文章于 2024-10-02 21:20:07 发布

一个很菜的小猪

最新推荐文章于 2024-10-02 21:20:07 发布

阅读量599

点赞数 3

分类专栏：提示学习文章标签：学习语言模型人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_51293984/article/details/141652389

版权

提示学习专栏收录该内容

24 篇文章 4 订阅

订阅专栏

Conceptual Codebook Learning for Vision-Language Models（ECCV 2024）

CPL的改进
暂无代码

CPL

详见CPL论文
![[CoCoLef3.1.png]]

CoCoLe

在这里插入图片描述

a：手工概念缓存的建立过程
b：制作提示的过程，将图像输入Ev，得到image features v 作为查询query，找出相似度top-k2（k2=10）的键keys，与cls一起输入到LLM，生成最优的提示。
c：训练推理过程
只有概念代码本中的key和value是可学习的
work：多个不同的图像特征分别有着对应的提示，更加细粒度

1 Loss

在这里插入图片描述

Lce：分类损失，最大化对齐图像特征fv和文本特征ft
Lma：最小化top-3 keys和图像特征fv的距离
Lcc：正则化，减小过拟合问题
Lor：确保文本特征是正交的，增强提示的多样性。对于每个提示，做余弦相似度，使得不同的提示嵌入正交化。

2 可学习的概念码本

视觉概念向量Vi作为keys，D
概念提示Pi作为values，由M个learnable vectors组成，DxM
组成N对，N=100

具体过程

输入图像到image encoder，得到图像特征fvj，计算fvj与所有Vi之间的余弦相似度得分Sc
选择余弦相似度得分最高的top-k3（k3=4）个视觉概念Vi，组成集合Vj
将Vj作为key，获得对应的value概念提示Pi，组成集合Pj
将提示Pj与cls输入text encoder，得到文本特征ftj
计算概率

疑问：
Vi的初始化是什么？Pi的初始化是什么？

3 手工概念缓存

CPL：选择top-1作为key
区别：选择top-k1（k1=3）个图像特征，并计算它们的平均值作为key
然后存储手工概念缓存

4 正则化的概念码本学习

确保可学习文本特征与手工概念提示差异不大

fhtd：手工制作的概念提示文本特征
fltd：可学习的提示文本特征

进行欧几里得距离约束：
![[CoCoLeg2.png]]

5 推断

输出的文本特征，与图像特征进行相似度计算。

一个很菜的小猪

关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。