摘要
- 受有限的感受野影响,基于CNN的模型不善于捕捉RS图像中的长距离上下文,随着Transformer的出现,上述问题得到缓解。但是,基于Transformer的高时间成本限制了它的应用性。且以往的CD网络忽略了变化区域的边缘,从而降低了变化图的质量。
- 为此,本文提出edge-assisted adaptive transformer detector (EATDer),由一个孪生编码器和一个边缘感知解码器组成。
- 孪生编码器:每个分支都包含三个自适应视觉Transformer(SAVT)块,SAVT能够在相对较低的时间消耗下捕获RS图像中的局部和全局信息。同时,通过full-range fusion modules (FRFMs)连接了两个分支,专注于挖掘双时态RS图像中不可见的时间知识,并强调changed/unchanged区域。
- 边缘感知解码器:首先使用恢复块集成由编码器获得的多尺度特征。然后,通过一个细化块来增强组合后的特征。最后,基于细化的特征,可以同时产生变化和边缘检测结果。同时,增加一个辅助边缘检测任务,以确保解码器感知变化区域的边缘,提高变化图的质量。
- 论文链接:EATDer: Edge-Assisted Adaptive Transformer Detector for Remote Sensing Change Detection | IEEE Journals & Magazine | IEEE Xplore
- 代码链接:Remote-Sensing-Image-Change-Detection/EATDer at main · TangXu-Group/Remote-Sensing-Image-Change-Detection · GitHub
方法
EATDer的总体框架如图3所示:
EATDer组成:
- 孪生编码器
- SAVT block:
- 目的:以可接受的计算成本从全局方面捕获RS图像中的复杂内容。
- 为了挖掘RS图像中复杂的局部细节,于原始的Vision Transformer开发,引入overlapping embedding scheme替代transformer中的common grid patch scheme,去探索RS图像中隐藏的局部线索。
- 为了降低计算成本,并重新塑造了MSA机制。
- 组成:
- self-adaptive MSA (SAMSA):包含一个SAP和一个常规的MSA。
- SAP中的“self-adaptive”主要描述了MSA挂起数据的自适应空间大小变化。通常,MSA机制可以直接应用于
。然而,计算成本将会很大。为了缓解这一问题,开发了SAP来减小
的空间大小。对于
,将其重塑为二维版本
,并使用平均池化和1×1卷积得到
。在这里,平均池化的目的是减小空间大小,而1×1卷积避免了信息丢失。经过重塑操作后,可以得到缩减数据
。同样,也可以得到
的缩减数据,即
。其次,对
进行MSA机制,可以表述为
- SAP中的“self-adaptive”主要描述了MSA挂起数据的自适应空间大小变化。通常,MSA机制可以直接应用于
- 多层感知机MLP:两个linear transformations和一个Gaussian error linear
unit activation
- self-adaptive MSA (SAMSA):包含一个SAP和一个常规的MSA。
- Full-Range Fusion Module(FRFM):
- 双重目标:一是将输入数据对所对应的信息(如复杂的土地覆盖和时间线索)相互融合。在这里,时间线索意味着内容变化的进程。二是指出输入数据中隐藏的显著线索。因此,FRFM有两个子模块,交叉融合子模块和卷积块注意力子模块(CBAM)。
- 交叉融合子模块:首先融合输入两个输入X和Y,然后,将两个输出输入CBAMs,探索显著信息,突出显示RS图像中的changed/unchanged信息。
- SAVT block:
- 边缘感知解码器
- 得到的多尺度特征图输入解码器,以生成变化映射。同时,解码器将生成一个边缘图,以确保估计的变化区域具有平滑和准确的边缘。包含Restoring Block和Refining Block。
- Restoring Block:首先上采样统一特征空间大小,在通道维度上连接相同尺度的特征映射。然后,采用3个3x3卷积,从时间维度上融合连接的特征。
- Refining Block:这个模块是为了改进CD的特征图。为了进一步突出隐藏在特征图中的多尺度信息和时间线线索,叠加了4个3x3卷积,一个1x1卷积,两个SAVTs(只有一个SAVT编码器),两个de-convolutions和3个批处理规范。利用卷积来捕获局部知识,采用两个SAVTs来分析全局上下文线索,并引入de-convolutions来完成上采样。最后生成改进的特征图。
-
Loss Function for Joint Learning
-
同时完成两个任务(变化检测和边缘预测),提出一个Joint损失函数来缩小变化图和ground truths之间的差距。 binary cross-entropy (BCE) loss作为基础。
-
变化损失定义为:
-
-
边缘损失定义为:
-
-
总的损失为:
-
-
- 边缘预测任务的ground truths获取
- 使用
自动生成
,而非手动注释,如图7所示。
- 具体来说:首先将Canny算子应用于
,以生产变化区域的原始边缘
。然后,使用3x3卷积处理
得到膨胀边缘
。
- 接下来,两种ground truths被用于训练模型。收集两种是为了使EATDer能够以一种从粗到细的方式捕获变化区域的边缘。膨胀边缘ground truths可以帮助模型快速探索变化区域的边缘。原始边缘的ground truths可以帮助模型细化所获得的边缘。
- 使用
实验
三个数据集的例子及其变化/边缘检测地面真相如图8所示。
Comparison With State-of-the-Art Methods
![](https://img-blog.csdnimg.cn/direct/1297eb36f5dc466da5437bbc0ec534ee.png)
![](https://img-blog.csdnimg.cn/direct/ad9b5b4d812b4e78ba1cd74a09197295.png)
![](https://img-blog.csdnimg.cn/direct/909a7fd5b6e84e2c90d65402300f40b5.png)
![](https://img-blog.csdnimg.cn/direct/d2f53b0e326246a092d8156c604da0f7.png)
Rationality Analysis of Score Map Division
![](https://img-blog.csdnimg.cn/direct/874d648ad46a49359ea850c92ce17aea.png)
Ablation Study
1) Ablation on SAVT Block:
![](https://img-blog.csdnimg.cn/direct/3ce45551a2884d56a4525640e5ed728e.png)
![](https://img-blog.csdnimg.cn/direct/518540e52605409391793a68ad95c0f8.png)
![](https://img-blog.csdnimg.cn/direct/f71dd8b3f65f4faf81c5d971e73e39be.png)
![](https://img-blog.csdnimg.cn/direct/7f730f7c21c74851be5bfeb4ba300ee6.png)
2) Ablation on FRFM:
3) Ablation on Refining Block:
![](https://img-blog.csdnimg.cn/direct/06204b5656814b0485ae94949833c725.png)
4) Ablation on Edge Clues:
![](https://img-blog.csdnimg.cn/direct/3495b9e6bd50447b94bb768850d2835e.png)
![](https://img-blog.csdnimg.cn/direct/d525cb05bb39439f8a6e86d1e3bd7924.png)
Parameter Analysis
![](https://img-blog.csdnimg.cn/direct/b713b43e382747e4a0f69a012ceab6ec.png)
![](https://img-blog.csdnimg.cn/direct/6144f49af53b4e2fad8e9fd4a40078b4.png)