(CoOp)Learning to Prompt for Vision-Language Models

arxiv:[2109.01134] Learning to Prompt for Vision-Language Models (arxiv.org)icon-default.png?t=N7T8https://arxiv.org/abs/2109.01134

GitHub:KaiyangZhou/CoOp: Prompt Learning for Vision-Language Models (IJCV'22, CVPR'22) (github.com)icon-default.png?t=N7T8https://github.com/KaiyangZhou/CoOp

一、ClIP 和 ALIGN

将图像及其文本描述放在一起,同时排除特征空间中不匹配的对(将图像和文本在公共特征空间中对齐)。 通过大规模预训练,模型可以学习不同的视觉概念,并可以通过提示轻松转移到任何下游任务。特别是,对于任何新的分类任务,可以首先通过向文本编码器提供描述任务相关类别的句子来合成分类权重,然后与图像编码器生成的图像特征进行比较。

对于预训练的视觉语言模型,文本输入(prompt)在下游数据集中起着关键作用。然而,识别正确的提示并不是一项简单的任务,它通常需要花费大量时间来调整单词——措辞上的微小变化可能会对性能产生巨大的影响。 添加与任务相关的上下文可以带来显着的改进,调整句子结构可以带来进一步的改进。 然而,即使进行了广泛的调整,所产生的提示不能保证对于这些下游任务来说是最佳的。

二、CoOp——第一个将prompt learning应用于大视觉语言模型

(1)自动化提示工程(prompt engineering)。

(2)CoOp旨在促进视觉语言模型在下游数据集中的适应和部署。

(3)CoOp 使用可学习向量(learnable context)对提示的上下文单词进行建模,这些向量可以使用随机值或预训练的单词嵌入进行初始化。

CoOp 有效地将预先训练的视觉语言模型转变为数据高效的视觉学习器,只需1 or 2 shot即可以相当大的优势击败手工制作的提示。使用更多shot性能还可以进一步提升。尽管 CoOp 是一种基于学习的方法,但它在域转换方面比零样本模型(使用手动提示)表现出更强的鲁棒性。

CoOp使用从数据中端到端学习的连续向量建模上下文单词来避免手动提示调整,同时冻结大量预训练参数。

  • 23
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
CoOp和CoCoOp是两个不同的模型,它们在上下文标记的数量上有所区别。CoOp中引入了较少的上下文标记数量,而CoCoOp引入了更多的参数,即Meta-Net。通过消融实验可以发现,增加参数大小并不是关键,因为用较大的GPU内存来训练CoCoOp相比CoOp会消耗更多的资源。因此,在实验中,CoCoOp使用了批大小为1的训练,并进行了10个epochs的训练。综合来看,CoCoOp在一些方面表现介于CoOp和CLIP之间。对于基类来说,CoCoOp不如CoOp,但超过了CLIP;对于未知类来说,CoCoOp不如CLIP,但超过了CoOp。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [CoOp & CoCoOp](https://blog.csdn.net/qq_46563097/article/details/130281970)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* *3* [CoCoOp: Conditional Prompt Learning for Vision-Language Models](https://blog.csdn.net/LuvLive/article/details/130601750)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值