1. BaseInfo
Title | Multimodal Fusion Transformer for Remote Sensing Image Classification |
Adress | https://ieeexplore.ieee.org/document/10153685 |
Journal/Time | TGRS |
Author | 印尼、慕尼黑、西班牙… |
Code | https://github.com/AnkurDeria/MFT |
Read | 20240831 |
2. Creative Q&A
- 高光谱和其他来源的图像(e.g., LiDAR, MSI, SAR and DSM) 信息融合进行分类
3. Concrete
3.1. Model
multimodal fusion transformer (MFT) network 包含 multihead cross patch attention (mCrossPA)
只是把辅助数据当作一个 cls token 送入 Transformer。
Conv3D + HetConv2D 后面都会加 batch normalization (BN) 和 ReLU activation layers
- Conv3D:kernels 3 × 3 × 9 , padding is (1 × 1 × 0)
- HetConv2D: 2 个并行的 Conv2D 一个组卷积(with kernel size = 3, groups = 4 and padding = 1) 一个点卷积 (with kernel size = 1, groups = 1 and padding = 0).
融合部分,交叉注意力。
3.1.1. Input
高光谱+其他输入
3.1.2. Backbone
3.1.3. Neck
3.1.4. Decoder
3.1.5. Loss
3.2. Training
批量大小为 64 和 500 已被用于训练和测试所考虑的模型的性能,其中大小为 11 × 11 × B 的补丁是从 HSI 中提取的,从其他多模态数据来源中提取 11 × 11 × C。除了 KNN、RF、SVM 和 RNN 之外的所有模型都使用 Adam 优化器 [68]、[69] 进行训练,学习率设置为 5e-4,权重衰减为 5e-3。对于 RNN,没有使用权重衰减,并采用更高的 1e-3 学习率。这些模型(包括 RNN)还使用了步长为 = 50 和 gamma = 0.9 的步长调度器,而训练是使用 500 个 epoch 进行的。每个实验重复 3 次,并报告平均偏差和标准偏差。基于 PyTorch 1.5.0和Python 3.7.7实现的。
3.2.1. Resource
CPU :ppc64le
GPU:V100
3.2.2 Dataset
Name | Images Number | Task | Note |
---|---|---|---|
University of Houston | HSI | 340 × 1905 144 bands | |
MUUFL Gulfport | HSI | 325 × 220 pixels with72 spectral bands | |
Trento | HSI + LiDAR | 63 bands | |
Augsburg scene | HSI + SAR + DSM | 332 × 485 |
3.3. Eval
overall accuracy (OA), average accuracy (AA) and statistical Kappa
结果表格列的挺多,但是每一类的结果都有,感觉有点繁琐。就放一个吧。
3.4. Ablation
- pixel tokenization and channel tokenization: 通道标记化更好
- Patch Size : 11 x 11 最佳尺寸
- 超参数
4. Reference
5. Additional
感觉文章有点太长了 18 页,重点不清晰,创新点不太够,但可能因为 HSI 数据做的人少,感觉在数据处理上会费点功夫。