LeViT: a Vision Transformer in ConvNet‘s Clothing for Faster Inference

LeViT是Facebook研究团队提出的一种融合卷积的Transformer模型,旨在加速推理过程。文章介绍了LeViT的设计原则,包括多分辨率金字塔结构、注意力下采样机制和替代位置编码的注意力偏置。通过引入小规模卷积网络和优化的注意力-MLP块,LeViT在减少计算量的同时提高了模型性能。
摘要由CSDN通过智能技术生成


前言

论文链接:https://arxiv.org/abs/2104.01136
代码链接:https://github.com/facebookresearch/LeViT

ViT -> DeiT -> LeViT

DeiT不改变ViT的架构,用好的超参和加入了一个distillation token提高了性能,减少了计算量。

LeViT在transformer中引入卷积,使模型更小(width and spatial resolution),推理更快。还引入了注意偏差attention bias,一种在视觉transformer中整合位置信息的新方法。

本文主要贡献:

  1. 一个将注意力作为下采样机制的multi-stage transformer
  2. 一种计算效率高的patch descriptor,可减少第一层中的特征数量。
  3. 一种学习到的、per-head translation-invariant 的attention bias,取代了ViT的position embedding
  4. 重新设计的attention-MLP block,在给定计算时间内提高了网络容量。

1. 模型

1.1 设计原则

第一步:获得一个可共用的representation。
将classification embedding的作用打折扣,ViT是一个处理activation maps的stack of layers. 实际上中间的token embeddings可以认为是FCN中的传统 C C Cx H H Hx W W Wactivation maps. 因此,那些给activation maps的操作,如池化,卷积,可以用在DeiT的中间representation上。

1.2 模型组件

patch embedding

作者实验证明在transformer stack的输入前加一个小的卷积网络可以提高精度。

no classitication token

为了使用BCHW张

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值