[Mutimodal Fusion | Cls]Multimodal Fusion Transformer for Remote Sensing Image Classification

1. BaseInfo

TitleMultimodal Fusion Transformer for Remote Sensing Image Classification
Adresshttps://ieeexplore.ieee.org/document/10153685
Journal/TimeTGGRS
Author印尼、慕尼黑、西班牙…
Codehttps://github.com/AnkurDeria/MFT
Read20240831

2. Creative Q&A

  1. 高光谱和其他来源的图像(e.g., LiDAR, MSI, SAR and DSM) 信息融合进行分类

3. Concrete

在这里插入图片描述

3.1. Model

multimodal fusion transformer (MFT) network 包含 multihead cross patch attention (mCrossPA)
只是把辅助数据当作一个 cls token 送入 Transformer。
在这里插入图片描述

Conv3D + HetConv2D 后面都会加 batch normalization (BN) 和 ReLU activation layers

  • Conv3D:kernels 3 × 3 × 9 , padding is (1 × 1 × 0)
  • HetConv2D: 2 个并行的 Conv2D 一个组卷积(with kernel size = 3, groups = 4 and padding = 1) 一个点卷积 (with kernel size = 1, groups = 1 and padding = 0).
    在这里插入图片描述
    融合部分,交叉注意力。
    在这里插入图片描述

3.1.1. Input

高光谱+其他输入

3.1.2. Backbone

3.1.3. Neck

3.1.4. Decoder

3.1.5. Loss

3.2. Training

批量大小为 64 和 500 已被用于训练和测试所考虑的模型的性能,其中大小为 11 × 11 × B 的补丁是从 HSI 中提取的,从其他多模态数据来源中提取 11 × 11 × C。除了 KNN、RF、SVM 和 RNN 之外的所有模型都使用 Adam 优化器 [68]、[69] 进行训练,学习率设置为 5e-4,权重衰减为 5e-3。对于 RNN,没有使用权重衰减,并采用更高的 1e-3 学习率。这些模型(包括 RNN)还使用了步长为 = 50 和 gamma = 0.9 的步长调度器,而训练是使用 500 个 epoch 进行的。每个实验重复 3 次,并报告平均偏差和标准偏差。基于 PyTorch 1.5.0和Python 3.7.7实现的。

3.2.1. Resource

CPU :ppc64le
GPU:V100

3.2.2 Dataset

NameImages NumberTaskNote
University of HoustonHSI340 × 1905 144 bands
MUUFL GulfportHSI325 × 220 pixels with72 spectral bands
TrentoHSI + LiDAR63 bands
Augsburg sceneHSI + SAR + DSM332 × 485

3.3. Eval

overall accuracy (OA), average accuracy (AA) and statistical Kappa
结果表格列的挺多,但是每一类的结果都有,感觉有点繁琐。就放一个吧。
在这里插入图片描述

3.4. Ablation

  1. pixel tokenization and channel tokenization: 通道标记化更好
  2. Patch Size : 11 x 11 最佳尺寸
  3. 超参数

4. Reference

5. Additional

感觉文章有点太长了 18 页,重点不清晰,创新点不太够,但可能因为 HSI 数据做的人少,感觉在数据处理上会费点功夫。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值