[Mutimodal Fusion | Cls]Multimodal Fusion Transformer for Remote Sensing Image Classification

Xy-unu

已于 2025-05-03 09:49:26 修改

阅读量1.4k

点赞数 13

分类专栏： Paper # VL 文章标签： transformer 深度学习人工智能 python 论文阅读

于 2024-08-31 09:41:40 首次发布

本文链接：https://blog.csdn.net/weixin_45863274/article/details/141741124

版权

Paper 同时被 2 个专栏收录

28 篇文章

订阅专栏

19 篇文章

订阅专栏

1. BaseInfo


Title	Multimodal Fusion Transformer for Remote Sensing Image Classification
Adress	https://ieeexplore.ieee.org/document/10153685
Journal/Time	TGRS
Author	印尼、慕尼黑、西班牙…
Code	https://github.com/AnkurDeria/MFT
Read	20240831

2. Creative Q&A

高光谱和其他来源的图像(e.g., LiDAR, MSI, SAR and DSM) 信息融合进行分类

3. Concrete

在这里插入图片描述

3.1. Model

multimodal fusion transformer (MFT) network 包含 multihead cross patch attention (mCrossPA)
只是把辅助数据当作一个 cls token 送入 Transformer。
在这里插入图片描述

Conv3D + HetConv2D 后面都会加 batch normalization (BN) 和 ReLU activation layers

Conv3D:kernels 3 × 3 × 9 , padding is (1 × 1 × 0)
HetConv2D: 2 个并行的 Conv2D 一个组卷积(with kernel size = 3, groups = 4 and padding = 1) 一个点卷积 (with kernel size = 1, groups = 1 and padding = 0).

融合部分，交叉注意力。

3.1.1. Input

高光谱+其他输入

3.1.2. Backbone

3.1.3. Neck

3.1.4. Decoder

3.1.5. Loss

3.2. Training

批量大小为 64 和 500 已被用于训练和测试所考虑的模型的性能，其中大小为 11 × 11 × B 的补丁是从 HSI 中提取的，从其他多模态数据来源中提取 11 × 11 × C。除了 KNN、RF、SVM 和 RNN 之外的所有模型都使用 Adam 优化器 [68]、[69] 进行训练，学习率设置为 5e-4，权重衰减为 5e-3。对于 RNN，没有使用权重衰减，并采用更高的 1e-3 学习率。这些模型（包括 RNN）还使用了步长为 = 50 和 gamma = 0.9 的步长调度器，而训练是使用 500 个 epoch 进行的。每个实验重复 3 次，并报告平均偏差和标准偏差。基于 PyTorch 1.5.0和Python 3.7.7实现的。

3.2.1. Resource

CPU ：ppc64le
GPU：V100

3.2.2 Dataset

Name	Task	Note
University of Houston	HSI	340 × 1905 144 bands
MUUFL Gulfport	HSI	325 × 220 pixels with72 spectral bands
Trento	HSI + LiDAR	63 bands
Augsburg scene	HSI + SAR + DSM	332 × 485

3.3. Eval

overall accuracy (OA), average accuracy (AA) and statistical Kappa
结果表格列的挺多，但是每一类的结果都有，感觉有点繁琐。就放一个吧。
在这里插入图片描述

3.4. Ablation

pixel tokenization and channel tokenization：通道标记化更好
Patch Size ： 11 x 11 最佳尺寸
超参数

4. Reference

5. Additional

感觉文章有点太长了 18 页，重点不清晰，创新点不太够，但可能因为 HSI 数据做的人少，感觉在数据处理上会费点功夫。