项目github地址 https://github.com/Ucas-HaoranWei/Vary
论文地址 https://arxiv.org/pdf/2312.06109.pdf
项目主页 Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models
一、提前的知识
clip模型的原理理解
这个模型是基于clip模型的范式的,因此我们先简单了解一下clip模型的构成。
简单的概括clip模型(CLIP 模型解读 - 知乎)
用图像编码器把图像编码成向量 a;
用文本编码器把文本编码成向量 b;
计算 a·b,
如果 a 和 b 来自一对儿配对的图和文字,则让 a·b 向 1 靠近;
如果 a 和 b 来自不配对儿的图和文字,则让 a·b 向 0 靠近;
clip模型中的text encoder和image encoder展开可以分别分为两个部分,以文本为例,其实可以分为一个text vocabulary,将纯文本首先通过text vocabulary词表得到每个词对应的text ID,然后进行text embedding得到text tokens&#