摘要
- CNN和Transformer存在固有缺点,基于空间状态模型的Mamba可以弥补两种体系结构的不足。
- 本文定制了三个框架:MambaBCD、MambaSCD和MambaBDA,分别用于二进制变化检测(BCD)、语义变化检测(BCD)和构建损伤评估(BDA)。
- 三个都采用了视觉Mamba作为编码器,允许从输入图像种学习全局空间上下文信息。对于解码器,提出三种时空关系建模机制,可以自然的和Mamba结构结合,充分利用其属性,实现多时特征的时空交互,获得准确的变化信息。
- 论文链接:https://arxiv.org/abs/2404.03425
- 代码链接:https://github.com/ChenHongruixuan/MambaCD
方法
ChangeMamba总体结构如下:
三个CD子任务,基于Mamba架构设计了相应的架构(MambaBCD、MambaSCD和MamabBDA)。
- 编码器均是VMamba架构的权重共享孪生网络。可以充分提取输入图像的鲁棒性和代表性特征。VMamba可以充分地利用Mamba体系结构和高效的二维交叉扫描机制,提取输入图像的鲁棒性和代表性特征(如图3所示)。
- MambaBCD:孪生编码器网络从输入图像中提取多层特征,多级特性被输入到一个定制的变化解码器中。基于Mamba架构,变化解码器可以通过三种不同的机制从多层次特征中充分学习时空关系,并逐步获得准确的BCD结果。
- MambaSCD:基于MambaBCD任务添加了两个语义解码器。编码器提取的多层次特征也被输入到两个语义编码器来预测相应单时间图像的土地覆盖地图。
- MambaBDA:BDA任务只需要预测前一时刻图像的土地覆盖地图。因此,只有一个语义解码器用于预测土地覆盖地图,与MambaBCD和MambaSCD一样,一个变化解码器从多时间特征中学习时空关系,将建筑物的损伤水平分类。所获得的土地覆盖地图可用于对所获得的损伤分类图进行进一步后处理,以提高精度。
- Encoder Based on Visual State Space Model
- 最近,Visual Mamba通过提出了一种二维交叉扫描机制,如图3所示,在将标记输入Mamba中的S6模型之前,交叉扫描机制在空间维度上重新排列标记,即左上到右下、右下到下、右上到左下、左下到右上。最后,然后将所得到的特征进行合并。这样,任何像素都可以从不同的方向获取空间上下文信息。此外,与变压器中的自注意技术相比,交叉扫描机制下的Mamba模型的计算复杂度仍然为O (N)。
- 基于Visual Mamba架构,提出的三种架构中编码器网络的具体结构如图2所示。有四个阶段,每一个阶段首先对输入数据进行降采样,然后使用大量的VSS块对空间上下文信息进行完全建模,然后输出该阶段的特征。
- VSS块的结构也如图2所示。输入首先通过一个线性嵌入层,输出被分成两个流。一个流通过一个3×3深度卷积层,然后一个激活函数[52],然后进入核心SS2D模块(即S6与交叉扫描机制的集成)。SS2D模块的输出通过一个层归一化(LN)层,然后与已被激活的其他流的输出进行求和。这个组合会产生VSS块的最终输出。最后,来自四个阶段的特征随后被用于负责特定任务的后续解码器中。
- Task-Specific Decoders
- Spatio-Temporal Relationship Modelling Mechanism:提出了三种建模时空关系的机制,它们可以与S6模型的属性对齐,能够充分建模长序列数据的全局上下文信息。图4显示了这三种建模机制。
- 顺序建模:展开两个时间的数据,按时间早晚排序。
- 交叉建模:展开两个时间的数据,一早一晚交叉排序。
- 联合建模:展开两个时间的数据,一早一晚并行建模。
- 通过这三种机制和Mamba架构,将充分探索多时态特征中内在的时空关系,帮助解码器获得准确的变化检测结果。
- Change Decoder:基于所提出的三种时空学习机制,变化解码器的具体结构如图5所示。从提取的多时特征中,分四个阶段充分学习时空关系,得到准确的二进制变化图。在每个阶段的开始阶段,首先使用STSS块对多时间特征的时空关系进行建模。在STSS块中,一个时空令牌生成器模块将重新排列输入的多时态特征,然后将其输入到三个VSS块中。每个区块负责学习图4中的一个时空关系。然后,当前阶段的STSS块的输出通过一个融合模块与前一阶段的特征图中的信息进行集成。通过上采样层后,特征图被输入到下一阶段。
- Semantic Decoder: 语义解码器的具体结构如图6所示。它主要负责逐步恢复编码器提取的相应多层次特征的类不可知或特定对象的陆地覆盖图。它也有四个阶段。在每个阶段的开始时,首先使用VSS块对输入数据的全局空间上下文信息进行建模。然后通过融合模块对特征图进行上采样,并与具有较高分辨率的低级特征图信息进行集成。在融合模块中,通过1×1的卷积层映射低级特征图的通道数,以与高级特征图保持一致。然后对高层和低级的特征图进行了求和。最后,利用残差层对所得到的特征图进行平滑处理。
-
- Spatio-Temporal Relationship Modelling Mechanism:提出了三种建模时空关系的机制,它们可以与S6模型的属性对齐,能够充分建模长序列数据的全局上下文信息。图4显示了这三种建模机制。
实验
Detection Results and Benchmark Comparison in Three Tasks
BCD:
![](https://img-blog.csdnimg.cn/direct/21f03aafee38404c96fd3407e036074a.png)
SCD:
![](https://img-blog.csdnimg.cn/direct/110949a4d21147bc96e619215b47a67e.png)
![](https://img-blog.csdnimg.cn/direct/887cdaa9ea5d4545880374e653d49f54.png)
![](https://img-blog.csdnimg.cn/direct/f6677479230144ff8608e3e823411d9b.png)
BDA:
![](https://img-blog.csdnimg.cn/direct/fc5787fef6ae4adda49e411b78192c7a.png)
![](https://img-blog.csdnimg.cn/direct/fa152fef44674d46a94c3483e40ae52d.png)
![](https://img-blog.csdnimg.cn/direct/05097d582df64a53a9f512de8cc29eb6.png)
![](https://img-blog.csdnimg.cn/direct/e1e1d39df7e64ab0b9ca21fc4cd56c7b.png)
Different Spatio-Temporal Modeling Methods
![](https://img-blog.csdnimg.cn/direct/bfdd910395a241e8a20503e460127c7e.png)
![](https://img-blog.csdnimg.cn/direct/6bd83da63b09462187ffd29a1f800d82.png)
Comparison to Other Backbone Networks
![](https://img-blog.csdnimg.cn/direct/a2afc4489b804796a3af62cdf2aaa7e7.png)
GPU Memory Footprint
![](https://img-blog.csdnimg.cn/direct/28e93ef3da054d33afb60c62e8f0b6c4.png)