(CoOp)Learning to Prompt for Vision-Language Models
CLIP将图像及其文本描述放在一起,排除特征空间中不匹配的对(将图像和文本在公共特征空间中对齐)。 通过大规模预训练,模型可以学习不同的视觉概念,并可以通过提示轻松转移到任何下游任务。CoOp——第一个将prompt learning应用于大视觉语言模型。自动化提示工程(prompt engineering)。CoOp旨在促进视觉语言模型在下游数据集中的适应和部署。CoOp 使用可学习向量(learnable context)对提示的上下文单词进行建模,这些向量可以使用随机值或预训练的单词嵌入进行初始化。
原创
2024-07-07 11:27:11 ·
578 阅读 ·
0 评论