【论文笔记】STANet：基于孪生神经网络的时空注意力变化检测模型

最新推荐文章于 2025-03-16 14:26:40 发布

棉花糖灬

最新推荐文章于 2025-03-16 14:26:40 发布

阅读量7.9k

点赞数 7

分类专栏：变化检测文章标签： STANet 变化检测时空注意力孪生神经网络

本文链接：https://blog.csdn.net/zuzhiang/article/details/114264652

版权

变化检测专栏收录该内容

13 篇文章

订阅专栏

本文介绍了一种基于孪生神经网络的时空注意力变化检测模型STANet，该模型能够有效处理不同尺度的物体变化检测问题。通过引入自注意力机制和多尺度特征提取，STANet能够在不同时间和空间位置间建立联系，提高变化检测的准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文是论文《A Spatial-Temporal Attention-Based Method and a New Dataset for Remote Sensing Image Change Detection》的阅读笔记，由于原文比较长，本文有很多省略，着重介绍该模型是怎么运作的。

一、相关工作

文章针对遥感图像变化检测问题提出了一个基于孪生神经网络的时空注意力变化检测模型STANet，其中的自注意力模块可以计算任意两张拍摄于不同日期和位置的图像的注意力权重，并产生更具辨别性的特征。考虑到物体可能具有不同的大小，文章还将图像分割成了多尺度的子区域，并在每个子区域中引入了自注意力机制。此外还创建了新的变化检测数据集LEVIR-CD。

在这里插入图片描述

上图a是时空注意力的示意图，b是图像误配准的情况。

大多数基于机器学习的变化检测方法都包括两步：单元分析和变化识别。单元分析是分析单元的原数据的特征，分析单元可以分为图像像素和图像物体两大类。变化识别使用手工或学习到的规则来计算特征差图并使用阈值分割得到不同的变化区域。

基于深度学习的变化检测方法主要可以分为两类：基于度量的方法和基于分类的方法。基于度量的方法通过对比图像之间参数化的距离来决定是否发生变化。每一对点之间的特征的度量表示是否发生了变化。基于分类的方法通过对提取到的图像特征进行分类，从而识别变化的类别。STANet属于基于度量的方法。

二、方法和网络结构

1. motivation

文章的motivation如下：

变化检测数据是有时间维度和空间维度的光谱向量组成的，开发不同时空位置之间的关系可以提升变化检测方法的效果。因此提出了时空自注意力机制。
由于变换物体可能具有不同的大小，从一个合适的范围内提取特征可以更好地表示一定尺度的对象。可以通过从不同大小区域提取得到的特征结合起来以获得不同尺度的特征。因此将图像分割成了多尺度的子区域，并在每个子区域中引入了自注意力机制。

2. 网络结构

文章设计了两种自注意力模块，一是基本的时空注意力模块BAM，二是金字塔时空注意力模块PAM。BAM任意两个位置之间的时空独立性注意力权重，并通过时空中所有位置特征的加权和来计算每个位置的响应。PAM将BAM嵌入得到一个金字塔结构以产生多尺度的注意力表示。

在这里插入图片描述

上图是STANet的结构示意图，图中的 $C\times H\times W$ 中 $C$ 是通道数， $H$ 和 $W$ 是特征图的高和宽。

STANet包括特征提取器、注意力模块、度量模块三部分。首先两张图像被喂入到两个特征提取器中获得两个特征图 $X^{(1)}$ 和 $X^{(2)}$ ，经过注意力模块的处理后得到两张注意力特征图 $Z^{(1)}$ 和 $Z^{(2)}$ ，在将注意力特征图resize到输入图像大小之后，度量模块会计算两个注意力特征图的每个像素对之间的距离，并产生一个距离图 $D$ ，然后通过简单的阈值法得到最终的变化标签图 $P$ 。

特征提取器

特征提取器中用到了ResNet-18，由于ResNet是用来进行图像分类任务而变化检测是密集分类任务，所以省略了ResNet中的全局池化层和全连接层。

BAM

在BAM中，特征图 $X$ 首先通过三个不同的 $1\times1$ 的卷积层得到三个特征向量 $Q, K, V$ ，分别表示查询、键和值。然后对其reshape得到矩阵 $\bar Q,\bar K,\bar V$ ，并使用转置后的 $\bar K$ 和 $\bar Q$ 进行矩阵乘法并使用softmax计算一个相似矩阵 $A$ ，该相似矩阵与 $\bar V$ 进行矩阵乘法得到输出矩阵 $\bar Y$ ，对其进行reshape得到注意力 $Y$ ， $Y$ 与 $X$ 进行像素级乘法得到最终的注意力特征图 $Z$ 。

PAM

而PAM有4个分支，每个分支将特征图 $X$ 分成了不同大小的子区域，并在每个子区域中应用BAM，每个分支的输出拼接起来和输入大小相同，将4个分支的输出concate起来并用 $1\times1$ 的卷积层进行处理得到注意力 $Y$ ， $Y$ 与 $X$ 进行像素级乘法得到最终的注意力特征图 $Z$ 。

度量模块

度量模块首先将特征图使用双线性插值resize到和输入相同的大小，然后计算两个特征图之间像素级的欧氏距离图 $D$ ，在训练阶段，用其来计算损失值，在测试阶段使用一个固定的阈值方法进行分割。

3. 损失函数

文章设计了一个批量平衡对比损失（BCL），利用批次权重对原始对比损失的类权重进行修正，其定义如下：
$\begin{aligned}L\left(D^{*}, M^{*}\right) &=\frac{1}{2} \frac{1}{n_{u}} \sum_{b, i, j}\left(1-M_{b, i, j}^{*}\right) D_{b, i, j}^{*} \\&+\frac{1}{2} \frac{1}{n_{c}} \sum_{b, i, j} M_{b, i, j}^{*} \operatorname{Max}\left(0, m-D_{b, i, j}^{*}\right)\end{aligned}$
其中， $M^*$ 是二值标签图的一个批次， $b, i, j$ 表示批次的下标、高度、宽度。 $m$ 是margin， $n_u,n_C$ 是未变化和变化了的像素对的个数，其计算公式如下：
$\begin{array}{c}n_{u}=\sum_{b, i, j} 1-M_{b, i, j}^{*} \\n_{c}=\sum_{b, i, j} M_{b, i, j}^{*}\end{array}$

3. LEVIR-CD数据集

在这里插入图片描述

上图是生成的LEVIR-CD数据集的样例。

LEVIR-CD数据集的总体情况。

与其他数据集的对比

三、实验

实验使用的数据集有SZTAKI AirChange Benchmark Set (SZTAKI)、The Onera Satellite Change Detection dataset (OSCD)、The Aerial Imagery Change Detection dataset (AICD)以及LEVIR-CD数据集。

使用的评价指标是每一类的准确率、召回率和F1值。使用的baseline是FCN-Network、FCN-Network+BAM、FCN-Network+PAM。