OCR多模态模型Vary的论文阅读笔记

项目github地址 https://github.com/Ucas-HaoranWei/Vary

论文地址 https://arxiv.org/pdf/2312.06109.pdf

项目主页 Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models

一、提前的知识

clip模型的原理理解

这个模型是基于clip模型的范式的,因此我们先简单了解一下clip模型的构成。

简单的概括clip模型(CLIP 模型解读 - 知乎

用图像编码器把图像编码成向量 a;
用文本编码器把文本编码成向量 b;
计算 a·b,
如果 a 和 b 来自一对儿配对的图和文字,则让 a·b 向 1 靠近;
如果 a 和 b 来自不配对儿的图和文字,则让 a·b 向 0 靠近;

clip模型中的text encoder和image encoder展开可以分别分为两个部分,以文本为例,其实可以分为一个text vocabulary,将纯文本首先通过text vocabulary词表得到每个词对应的text ID,然后进行text embedding得到text tokens&#

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值