CLIP论文阅读
Learning Transferable Visual Models From Natural Language Supervision
CLIP如何做zero-shot的推理。
CLIP做视频检索
最先进的计算机视觉系统被训练来预测预定对象类别的固定集合。 这种受限制的监督形式限制了它们的一般性和可用性,因为需要额外的标记数据来指定任何其他视觉概念。如果我们需要检测别的类别我们还需要重新改变数据集,
1.方法
用自然语言的监督信号来训练一个视觉模型。
- 你不需要再去标注数据集,你现在只需要去下载文字和图片的配对 \textcolor{red}{你不需要再去标注数据集,你现在只需要去下载文字和图片的配对} 你不需要再去标注数据集,你现在只需要去下载文字和图片的配对
- 常见的图片文字配对数据集: M S − C O C O ( L i n e t a l . , 2014 ) , V i s u a l G e n o m e ( K r i s h n a e t a l . , 2017 ) , a n d Y F C C 100 M ( T h o m e e e t a l . , 2016 ) . \textcolor{red}{MS-COCO (Lin et al., 2014), Visual Genome (Krishna et al., 2017), and YFCC100M (Thomee et al., 2016).} MS−COCO(Linetal.,2014),VisualGenome(Krishnaetal.,2017),andYFCC100M(Thomeeetal.,2016).
最后这些数据集都不能达到作者想要的一鸣惊人的效果,由于以上数据集不够大,作者自己收集数据集。
我们发现训练效率是成功扩展自然语言监督的关键,并基于此度量选择了最终的预训练方法。
为什么要使用对比学习的方法?
注意到这些发现,我们探索训练一个系统来解决潜在的更容易的代理任务,即只预测哪个文本作为一个整体与哪个图像配对,而不是该文本的确切单词。
如何去很多个GPU上训练:How to Train Really Large Models on Many GPUs?
在从模型中提取的表示上拟合线性分类器并测量其在各种数据集上的性能是一种常见的方法。 linear probe
另一种方法是测量模型端到端微调的性能。
创新想法
一个值得尝试的简单想法是将对比和生成目标联合训练,希望将剪辑的效率和标题模型的灵活性结合起来。 \textcolor{green}{一个值得尝试的简单想法是将对比和生成目标联合训练,希望将剪辑的效率和标题模型的灵活性结合起来。 } 一个值得尝试的简单想法是将对比和生成目标联合训练,希望将剪辑的效率和标题模型的灵活性结合起来。