论文地址:
https://arxiv.org/abs/2103.00020
代码地址:
https://github.com/OpenAI/CLIP
主要工作:
作者证明了简单的预训练任务,预测哪个图像的标题是一种有效的和可伸缩的方式,在从互联网收集的4亿(图像-文本对)数据集上从头学习 SOTA 的图像表示。经过预训练后,自然语言被用来参考学习到的视觉概念(或描述新的概念),使模型能够零镜头转移到下游任务。
具体实现:
CLIP 使用了一种图片和文本分别进行编码,最后计算相似度的经典双流结构。
图片侧使用 Resnet 50 或者 Vit,文本编码器使用了 Tranformer 结构。
损失函数包括两部分,一部分是图像-文本