【经典论文阅读】如何理解CLIP以及CLIP中的问题和解答————看朱毅讲CLIP

帅气的柳

于 2024-10-02 20:23:50 发布

阅读量572

点赞数 16

分类专栏：经典论文阅读文章标签：论文阅读 python 人工智能神经网络

本文链接：https://blog.csdn.net/weixin_51539394/article/details/142678227

版权

经典论文阅读专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文主要是本人在看朱毅讲CLIP中遇到的一些疑问，以及我自己寻找的疑问的答案。有一些问题网上的其他人都已经给出了很完美的答案了，我就作为一个收集，给出链接。

一、CLIP的大概流程

在这里插入图片描述

1.1 训练流程（上图中的左边的图所示）

训练过程中模型的输入是一个图片文字的配对，假如一个训练batch中有N个这样的配对，则经过图片编码器（可以是ResNet或ViT）和文本编码器（CBOW、Text Transformer）得到N个图片的特征（图中绿色的部分， $I_1,I_2$ 等）和文本的特征，CLIP在这些特征上进行对比学习，对比学习只需要一个正样本和负样本的定义，正样本是配对的图片和文字对，所以矩阵对角线上的都是正样本，其他的都是负样本，有N个正样本和 $n^2-n$ 个负样本。完全不需要手工的标注

1.2 分类流程（上图中的右边的图所示）

因为CLIP经过预训练以后，只能得到视觉上和文本上的特征，没有继续的在任何的分类任务上去做训练和微调，所以没有分类头，那如果没有分类头怎么去做推理呢？作者这里想出来一个巧妙的利用自然语言的一种方法，也就是prompt template。举一个image net的例子：

CLIP先把image net里这一千个类，比如说图片里的plane、car、dog等变成一个句子（例如A photo of a {object}）,就是用类别去替代这里的这个object，比方说得到一个A photo of a car句子。而且从单词到句子也是很有讲究的，文章中也进行了探讨
image net有1000个类，那其实就生成了1000个句子，经过预训练好的文本编码器对1000个句子进行编码得到1000个文本特征
具体推理的时候，给出一张图像，只要把这张图像扔给图像编码器，得到了这个图像特征之后，使用图片的特征去跟所有的文本的特征去计算余弦相似度，最后图像特征跟哪个文本特征最相似。我们就把这个文本特征所对应的句子挑出来，从而完成了分类这个任务