OCR多模态模型Vary的论文阅读笔记

最新推荐文章于 2025-04-16 00:18:09 发布

努力米花开

最新推荐文章于 2025-04-16 00:18:09 发布

阅读量2.2k

点赞数 15

文章标签： ocr 笔记深度学习语言模型人工智能

本文链接：https://blog.csdn.net/wentinghappyday/article/details/135765365

版权

项目github地址 https://github.com/Ucas-HaoranWei/Vary

论文地址 https://arxiv.org/pdf/2312.06109.pdf

项目主页 Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models

一、提前的知识

clip模型的原理理解

这个模型是基于clip模型的范式的，因此我们先简单了解一下clip模型的构成。

简单的概括clip模型（CLIP 模型解读 - 知乎）

用图像编码器把图像编码成向量 a；
用文本编码器把文本编码成向量 b；
计算 a·b，
如果 a 和 b 来自一对儿配对的图和文字，则让 a·b 向 1 靠近；
如果 a 和 b 来自不配对儿的图和文字，则让 a·b 向 0 靠近；

clip模型中的text encoder和image encoder展开可以分别分为两个部分，以文本为例，其实可以分为一个text vocabulary,将纯文本首先通过text vocabulary词表得到每个词对应的text ID，然后进行text embedding得到text tokens&#