[Backbone]CAS-ViT: Convolutional Additive Self-attention Vision Transformers

Xy-unu

于 2024-08-29 15:24:27 发布

阅读量396

点赞数 17

文章标签：论文阅读 python 人工智能深度学习 transformer

本文链接：https://blog.csdn.net/weixin_45863274/article/details/141675453

版权

1. BaseInfo


Title	CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications
Adress	https://arxiv.org/pdf/2408.03703
Journal/Time	202408
Author	清华
Code	https://github.com/Tianfang-Zhang/CAS-ViT
Read	20240829
Table	VisonTransformer

2. Creative Q&A

ViT 矩阵运算计算量大 -> CAS-ViT: Convolutional Additive Self-attention Vision Transformers 平衡效率和结果，轻量化的 backbone
是 ViT 的进一步改版，可以应用在 image classfication、object detection 、 instance segmentation 、 semantic segmentation
主要的创新在注意力模块。

3. Concrete

3.1. Model

在这里插入图片描述
a 是经典多头注意力
b 是 MobileViTv2 ，将最后的 NxN 矩阵变为了 1xC 的向量
c 是 SwiftFormer，去掉 V
d 是本文提出的卷积加和注意力，对空间和通道做了融合。

以分类为例。
下采样 4、8、16、32。
主要有 3 个部分，Integration subnet(借鉴 SwiftFormer 由 ReLU 激活的 3 个卷积层 ), CATM and MLP.

CATM 中的空间和通道提取特征部分
SpatialOperation 只处理一个通道，为输入特征图的每个位置赋予了不同的权重
ChannelOperation, 它为输入特征图的每个通道赋予了不同的权重

3.1.1. Input

图片

3.1.2. Backbone

Model	Paras(M)
CAS-ViT-XS	3.20
CAS-ViT-S	5.76
CAS-ViT-M	12.42
CAS-ViT-T	21.76

3.2. Training

3.2.1. Resource

16 V100 GPUs

3.2.2 Dataset

ImageNet-1K
ADE20K
COCO val2017
几个经典数据集

3.3. Eval

ImageNet-1K Classification
Semantic segmentation result on ADE20K
Object detection and instance segmentation performance on COCO val2017

3.4. Ablation

CATM 的有效性
空间和通道注意力的有效性
Q 和 K 的不同

在这里插入图片描述

4. Reference

CNN-ViT 混合 [1] HATAMIZADEH A, HEINRICH G, YIN H, et al. FasterViT: Fast Vision Transformers with Hierarchical Attention[J]. 2023.
PVTv2 [2] WANG W, XIE E, LI X, et al. PVT v2: Improved baselines with Pyramid Vision Transformer[J/OL]. Computational Visual Media, 2022: 415-424. http://dx.doi.org/10.1007/s41095-022-0274-8. DOI:10.1007/s41095-022-0274-8.
FLatten Transformer: Vision Transformer using Focused Linear Attention 关注线性注意力模块 Focused Linear Attention
EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision Transformers
EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention
SwiftFormer: Efficient Additive Attention for Transformer-based Real-time Mobile Vision Applications
EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision Transformers

5. Additional

代码挺简单的，主要看 CAS-ViT/classification/model/rcvit.py
实验部分的实验设置写的也挺详细。因为重点不在这就略过不写了。
Limitation 收敛速度快但可能模型越大或者数据集越大效果就不太好了。
结构确实简，参数量很小，试一下效果。

Xy-unu

关注

17
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
[Backbone]CAS-ViT: Convolutional Additive Self-attention Vision Transformers

CAS-ViT：卷积加性自注意力视觉转换器，以实现移动应用程序的效率和性能之间的平衡。首先，我们认为令牌混合器获得全局上下文信息的能力取决于多个信息交互，例如空间和通道域。随后，我们按照这个范式构建了一个新的加性相似函数，并提出了一个有效的实现，称为卷积加性令牌混合器 (CATM)。这种简化导致计算开销显着减少。
复制链接

扫一扫