LeViT: a Vision Transformer in ConvNet‘s Clothing for Faster Inference

最新推荐文章于 2024-08-07 21:18:03 发布

big_hm

最新推荐文章于 2024-08-07 21:18:03 发布

阅读量619

点赞数

分类专栏：视觉Transformer 文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/woshilaixiazaidemiao/article/details/124969504

版权

LeViT是Facebook研究团队提出的一种融合卷积的Transformer模型，旨在加速推理过程。文章介绍了LeViT的设计原则，包括多分辨率金字塔结构、注意力下采样机制和替代位置编码的注意力偏置。通过引入小规模卷积网络和优化的注意力-MLP块，LeViT在减少计算量的同时提高了模型性能。

摘要由CSDN通过智能技术生成

文章目录

前言
1. 模型

前言

论文链接：https://arxiv.org/abs/2104.01136
代码链接：https://github.com/facebookresearch/LeViT

ViT -> DeiT -> LeViT

DeiT不改变ViT的架构，用好的超参和加入了一个distillation token提高了性能，减少了计算量。

LeViT在transformer中引入卷积，使模型更小（width and spatial resolution），推理更快。还引入了注意偏差attention bias，一种在视觉transformer中整合位置信息的新方法。

本文主要贡献：

一个将注意力作为下采样机制的multi-stage transformer
一种计算效率高的patch descriptor，可减少第一层中的特征数量。
一种学习到的、per-head translation-invariant 的attention bias，取代了ViT的position embedding
重新设计的attention-MLP block，在给定计算时间内提高了网络容量。

1. 模型

1.1 设计原则

第一步：获得一个可共用的representation。
将classification embedding的作用打折扣，ViT是一个处理activation maps的stack of layers. 实际上中间的token embeddings可以认为是FCN中的传统 $C$ x $H$ x $W$ activation maps. 因此，那些给activation maps的操作，如池化，卷积，可以用在DeiT的中间representation上。

1.2 模型组件

patch embedding

作者实验证明在transformer stack的输入前加一个小的卷积网络可以提高精度。

no classitication token

为了使用BCHW张

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。