【EATDer】用于遥感变化检测的边缘辅助自适应Transformer探测器（IEEE TGRS收录）

最新推荐文章于 2024-06-24 21:13:17 发布

及时行樂樂樂

最新推荐文章于 2024-06-24 21:13:17 发布

阅读量878

点赞数 23

分类专栏： change detection 论文阅读文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/weixin_44703452/article/details/138723402

版权

论文阅读同时被 2 个专栏收录

15 篇文章 0 订阅

订阅专栏

change detection

11 篇文章 0 订阅

订阅专栏

摘要

受有限的感受野影响，基于CNN的模型不善于捕捉RS图像中的长距离上下文，随着Transformer的出现，上述问题得到缓解。但是，基于Transformer的高时间成本限制了它的应用性。且以往的CD网络忽略了变化区域的边缘，从而降低了变化图的质量。
为此，本文提出edge-assisted adaptive transformer detector (EATDer)，由一个孪生编码器和一个边缘感知解码器组成。
- 孪生编码器：每个分支都包含三个自适应视觉Transformer（SAVT）块，SAVT能够在相对较低的时间消耗下捕获RS图像中的局部和全局信息。同时，通过full-range fusion modules (FRFMs)连接了两个分支，专注于挖掘双时态RS图像中不可见的时间知识，并强调changed/unchanged区域。
- 边缘感知解码器：首先使用恢复块集成由编码器获得的多尺度特征。然后，通过一个细化块来增强组合后的特征。最后，基于细化的特征，可以同时产生变化和边缘检测结果。同时，增加一个辅助边缘检测任务，以确保解码器感知变化区域的边缘，提高变化图的质量。
论文链接：EATDer: Edge-Assisted Adaptive Transformer Detector for Remote Sensing Change Detection | IEEE Journals & Magazine | IEEE Xplore
代码链接：Remote-Sensing-Image-Change-Detection/EATDer at main · TangXu-Group/Remote-Sensing-Image-Change-Detection · GitHub

方法

EATDer的总体框架如图3所示：

EATDer组成：

孪生编码器
- SAVT block：
  - 目的：以可接受的计算成本从全局方面捕获RS图像中的复杂内容。
  - 为了挖掘RS图像中复杂的局部细节，于原始的Vision Transformer开发，引入overlapping embedding scheme替代transformer中的common grid patch scheme，去探索RS图像中隐藏的局部线索。
  - 为了降低计算成本，并重新塑造了MSA机制。
  - 组成：
    - self-adaptive MSA (SAMSA)：包含一个SAP和一个常规的MSA。
      - SAP中的“self-adaptive”主要描述了MSA挂起数据的自适应空间大小变化。通常，MSA机制可以直接应用于 $\{Q_1,K_1,V_1\}$ 。然而，计算成本将会很大。为了缓解这一问题，开发了SAP来减小 $\{K_1,V_1\}$ 的空间大小。对于 $K_1$ ，将其重塑为二维版本 $\tilde{K}_1\in \mathbb{R}^{(h/s)\times (w/s)\times c}$ ，并使用平均池化和1×1卷积得到 $\hat{K}_1\in \mathbb{R}^{\left \lceil \sqrt{(h/s)} \right \rceil \times \left \lceil \sqrt{(w/s)} \right \rceil\times {c}'}$ 。在这里，平均池化的目的是减小空间大小，而1×1卷积避免了信息丢失。经过重塑操作后，可以得到缩减数据 $K^a_1\in \mathbb{R}^{\left \lceil \sqrt{hw}/s \right \rceil \times {c}'}$ 。同样，也可以得到 $V_1$ 的缩减数据，即 $V^a_1\in \mathbb{R}^{\left \lceil \sqrt{hw}/s \right \rceil \times {c}'}$ 。其次，对 $\{Q_1,K^a_1,V^a_1\}$ 进行MSA机制，可以表述为
    - 多层感知机MLP：两个linear transformations和一个Gaussian error linear
      unit activation
- Full-Range Fusion Module（FRFM）：
  - 双重目标：一是将输入数据对所对应的信息（如复杂的土地覆盖和时间线索）相互融合。在这里，时间线索意味着内容变化的进程。二是指出输入数据中隐藏的显著线索。因此，FRFM有两个子模块，交叉融合子模块和卷积块注意力子模块（CBAM）。
  - 交叉融合子模块：首先融合输入两个输入X和Y，然后，将两个输出输入CBAMs，探索显著信息，突出显示RS图像中的changed/unchanged信息。
边缘感知解码器
- 得到的多尺度特征图输入解码器，以生成变化映射。同时，解码器将生成一个边缘图，以确保估计的变化区域具有平滑和准确的边缘。包含Restoring Block和Refining Block。
- Restoring Block：首先上采样统一特征空间大小，在通道维度上连接相同尺度的特征映射。然后，采用3个3x3卷积，从时间维度上融合连接的特征。
- Refining Block：这个模块是为了改进CD的特征图。为了进一步突出隐藏在特征图中的多尺度信息和时间线线索，叠加了4个3x3卷积，一个1x1卷积，两个SAVTs（只有一个SAVT编码器），两个de-convolutions和3个批处理规范。利用卷积来捕获局部知识，采用两个SAVTs来分析全局上下文线索，并引入de-convolutions来完成上采样。最后生成改进的特征图。
Loss Function for Joint Learning
- 同时完成两个任务（变化检测和边缘预测），提出一个Joint损失函数来缩小变化图和ground truths之间的差距。 binary cross-entropy (BCE) loss作为基础。
- 变化损失定义为：
- 边缘损失定义为：
- 总的损失为：
边缘预测任务的ground truths获取
- 使用 $G_c$ 自动生成 $G_e$ ，而非手动注释，如图7所示。
- 具体来说：首先将Canny算子应用于 $G_c$ ，以生产变化区域的原始边缘 $G_e^p$ 。然后，使用3x3卷积处理 $G_e^p$ 得到膨胀边缘 $G_e^d$ 。
- 接下来，两种ground truths被用于训练模型。收集两种是为了使EATDer能够以一种从粗到细的方式捕获变化区域的边缘。膨胀边缘ground truths可以帮助模型快速探索变化区域的边缘。原始边缘的ground truths可以帮助模型细化所获得的边缘。

实验

三个数据集的例子及其变化/边缘检测地面真相如图8所示。

Comparison With State-of-the-Art Methods

Rationality Analysis of Score Map Division

Ablation Study

1) Ablation on SAVT Block:

2) Ablation on FRFM:

3) Ablation on Refining Block:

4) Ablation on Edge Clues:

Parameter Analysis

及时行樂樂樂

关注

23
点赞
踩
24

收藏

觉得还不错? 一键收藏
1
评论
【EATDer】用于遥感变化检测的边缘辅助自适应Transformer探测器（IEEE TGRS收录）

full-range fusion modules (FRFMs)连接了两个分支，专注于挖掘双时态RS图像中不可见的时间知识，并强调changed/unchanged区域。
复制链接

扫一扫