[Base]CTA-Net: A CNN-Transformer Aggregation Network for Improving Multi-Scale Feature Extraction

1. BaseInfo

TitleCTA-Net: A CNN-Transformer Aggregation Network for Improving Multi-Scale Feature Extraction
Adresshttps://arxiv.org/pdf/2410.11428
Journal/Time2024.10
Author复旦
Code暂未开源
Read241110

2. Creative Q&A

  1. CNN + Transformer
  2. 轻量级多尺度特征融合多头自注意力(LMF-MHSA)模块:Light Weight Multi-Scale Feature Fusion Multi-Head SelfAttention (LMF-MHSA) 效多尺度特征集成,同时降低了参数数量。
  3. 反向重构卷积-变体(RRCV)模块 Reverse Reconstruction CNN-Variants (RRCV) : 增强了在 Transformer 架构中CNN的嵌入。
    在典型的聚合结构中,CNN和Transformer被组织成两个独立的分支,分别学习后进行融合。本文是在 Transformer 的架构中进行 CNN 加入。

3. Concrete

在这里插入图片描述
黄色部分是 CT Block 是 Transformer 的结构和结合CNN 的部分。
和 ViT 类似的结构,先分成 Patches
LMF-MHSA 是 卷积 + 多头自注意力
RRCV 反向嵌入。这个光看图有点不太懂。将 Transformer 的输出重构为 CNN 能输入的特征图形式。再进行点卷积。
CNN-Variants模块:
在这里插入图片描述

3.2. Training

3.2.1. Resource

所有实验均在配备80 GB内存的NVIDIA Tesla A100 GPU上运行。

3.2.2 Dataset

四个开源小型数据集包括CIFAR-10,CIFAR-100(Krizhevsky,Hinton等人,2009年),APTOS 2019盲视力检测(APTOS2019)(Mohanty等人,2023年),以及2020视网膜多疾病图像数据集(RFMiD2020)(Pachade等人,2021年)。

3.3. Eval

使用Top-1准确率(Top-1 Acc)作为分类准确性的衡量标准,同时测量计算效率,包括每秒浮点运算次数(FLOPs)和参数数量(Params)。
在这里插入图片描述

3.4. Ablation

  1. 证明相对于加 RRCV 加了 LMF-MHSA 的效果会好一些。
  2. 标准CNN、残差模块和深度可分卷积模块,残差连接是有效的。
  3. LMF - MHSA 的参数量和FLOPs 都比 MHSA 少。
  4. LMF-MHSA 的 1 3 5 卷积核,多尺度特征提取在提高模型在不同视觉模式之间泛化能力方面的关键作用。

4. Reference

5. Additional

最近在做实验,晕头转向的,好久没好好读过论文了。
说有附录,但没看见附录。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值