多模态大模型的技术底座:ViT的baseline

ViT的baseline

论文研究的是谷歌ViT论文提出的两个原生ViT模型:ViT-B/16ViT-L/16,同时加上DeiT论文中提出的两个更小的模型:ViT-Ti/16ViT-S/16,这4个模型的patch_size均为16x16,主要的区别在于模型的参数设置,即采用不同的depth,width和heads:

其原始架构图如下所示

  1. 可以看到首先输入图片分为很多 patch。
  2. 将 patch 输入一个 Linear Projection of Flattened Patches 这个 Embedding 层,就会得到一个个向量,通常就称作 token。
  3. 紧接着在一系列 token 的前面加上加上一个新的 token(类别token,有点像输入给 Transformer Decoder 的 START,就是对应着 * 那个位置),
  4. 此外还需要加上位置的信息,对应着 0~9。
  5. 然后输入到 Transformer Encoder 中,对应着右边的图,将 block 重复堆叠 L 次。
  6. Transformer Encoder 有多少个输入就有多少个输出。
  7. 最后只进行分类,所以将 class 位置对应的输出输入 MLP Head 进行预测分类输出。

ViT B 对应的就是 ViT-Base,ViT L 对应的是 ViT-Large,ViT H 对应的是 ViT-Huge

the smallest model (ViT-B) containing 86M parameters.

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

冰淇淋百宝箱

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值