摘要
- 目前使用高分辨率遥感图像的CD方法需要大量的计算资源,并且容易受到图像中存在无关噪声的影响。
- 为此,提出了comparison-based attention Siamese network (CAS-Net)。
- 该网络利用contrastive attention modules (CAMs)进行特征融合,并使用分类器来确定双时态图像patch的异同。它通过比较图像patch,简化了像素级的cd。因此,降低了图像背景噪声对变化预测的影响。
- 并且,利用高分辨率遥感图像建立了一个unmanned aerial vehicle (UAV) similarity detection (UAV-SD)数据集。该数据集包括10 000对无人机图像,大小为256×256。
- 在UAV-SD数据集上的实验表明,CAS-Net)优于其他CD网络。在UAV-SD数据集上的CAS-Net检测准确率为93.1%。
- 论文链接:CAS-Net: Comparison-Based Attention Siamese Network for Change Detection With an Open High-Resolution UAV Image Dataset | IEEE Journals & Magazine | IEEE Xplore
- 代码链接:https://github.com/tulingLab/CAS-Net
引言
下图表示由无人机捕获的双时态图像,其中图像(a)和图像(b)红框中的patch代表感兴趣的目标或物理特征,而黄色框中的patch代表研究中不需要的噪声或物理特征。
下图比较了像素级CD方法与基于比较的CD方法。两种方法都有一个编码器E,特征融合模块F,以及解码器D或分类器C。编码器(由权重共享的孪生网络组成)从双时态提取特征地图,而骨干可以ResNet,ShuffleNet,MobileNet,或其他特征提取器。值得注意的是,基于比较的方法将图像分别分为两类,变化和不变,而像素级的方法最终得到一个变化图。
UAV-SD数据集
针对目前CD任务现有基线数据集做了调研:HiRISE RSL、CDD、LEVIR-CD、WHU-CD、SYSU-CD。这些数据集中所有图像都是自上而下视角,缺乏三维细节或从其他角度看目标对象的视图,使得CD方法很难在卫星图像中区分所需要的特征(如建筑物)和不需要的特征(如地面碎片和其他噪声)。此外,这些数据集是通过谷歌Earth或其他免费信息服务平台获得的,图像分辨率通常很低(CDD除外)。针对变化检测任务,目前还没有高分辨率无人机双时态图像的基准数据集。为此,本文利用无人机技术建立了UAV-SD数据集,由10000对256×256图像组成。无人机针对感兴趣的区域产生了不同角度的视图(顶部和不同角度视图),分辨率为0.06m/像素。表1显示了相关数据集的基本特征。
A. UAV Setup and Image Pairing
B. Semi-Automatic Change Annotation Tool (SCA-Tool) and UAV-SD Dataset
![](https://img-blog.csdnimg.cn/direct/4184f2df69eb486b897814c4c16d3058.png)
- SCA-Tool中的半自动注释预训练模型是从一系列带label的双时态图像训练出来的,如step1。然后,采用预训练后的模型对双时态图像进行标注,获得双时态伪注释图像,如step2灰色区域所示。对伪注释图像进行人工审查和编辑,删除明显的错误(如黄圈内),添加正确的标签和成对图像到UAV-SD数据集,直到所有成对图像都被注释。
- 半自动标注预训练模型的训练是离线进行的。随着更多的成对图像被伪标注、人工编辑并发送到UAV-SD数据集,经过几轮训练,开发出了一个更稳定、更好的半自动标注预训练模型。与现有的注释工具不同,这个SCA-Tool同步对图像的标注操作。当标注操作作用于图像时,标记操作的结果可以自动地反射到另一图像上。通过这样做,SCA-Tool确保了注释的准确性,并提高了手动标注操作的效率。
C. UAV-SD Dataset Details
研究团队使用SCA-Tool对双时态图像进行注释,根据标签内容将其分类为similar或contrastive成对图像,并建立UAVSD数据集。该数据集包含5000对contrastive或positive图像和5000对similar或negative图像。数据集按8:1:1的比例分为训练、验证和测试集。此外,UAV-SD数据集包括三级目录,第一级是:“train,” “validation,” “test”;第二级是“negative” “positive”;第三级是“A,” “B,” and “label”用于存放对应的前后时间图像和标签。
UAV-SD数据集是在高分辨率下的建筑变化。优于其他基于卫星的数据集,因为它包含了多个航空角度拍摄的图像,覆盖了不同的城市和农村地区,并展示了广泛的地理和建筑差异。此外,该数据集包含了不同的变化类型,从city streets, urban high-rises, factories, and construction sites to rural houses, farmlands, ponds, forests, and agriculturalsheds。此外,UAV-SD数据集嵌入了建筑的空间模式和分布,并记录了一个现实的和具有挑战性的区域场景。
UAV-SD数据集positive和negative样本如图4所示,每行显示两个positive和两个negative的图像对和标签,黄色虚线标记的是伪变化,如车辆和阴影,需要忽略伪变化,因此标签中未做标记。
方法
CAS-Net总体结构如下图所示。
首先使用adaptive max pooling调整图像大小,探讨不同分辨率的图像对模型预测的影响。然后输入核大小为7×7,步幅为2,填充为3的卷积层,以及核大小为3,步幅为2,填充为1的最大池化层。之后特征被输入到编码器中,经过编码器、CAMs、DAM和分类器的处理,产生变化图。
CAS-Net由四个核心组件组成:
- 编码器:采用ResNet18作为主干网络,从高分辨率图像对中提取特征。
- 四个堆叠的CAMs:用于特征融合,实现了一种注意机制来减少变化预测中的假阳性(FP)错误。
- CAM由两个分支模块组成:
- global contrastive module (GCM)和local contrastive module (LCM),前者获取全局对比注意得分GSj,后者获取局部对比注意得分LSj。使用GSj和LSj对输入的双时间特征进行增强,生成两个耦合更深的特征图。第一个CAM从ResBlock1接收特征映射,并将GS0设置为默认值1。其他三个CAM与第一个CAM过程相同,唯一的区别是,这三个CAM合并了前一个CAM的GS来计算当前的GS。
- CAM由两个分支模块组成:
- DAM:将提取的特征映射融合成一个特征向量。
- 双时态图像特征作为输入,执行全局平均池化操作,然后级联两个时态特征,合并为一个1024×1×1特征向量,最后使用1×1卷积降维,进一步将特征向量融合为信息性特征表示。
- 分类器:对融合和聚合的特征进行分类,预测变化。
- 采用单层全连接网络对融合特征进行分类。如果分类器的预测结果为0,则表示双时间图像相似。相反,1表示双时间图像中存在差异。
实验
Comparison With Other CD Methods
Ablation Studies
1) Leaning Networks With CAM:
![](https://img-blog.csdnimg.cn/direct/2a0850d9dd4b42bf9923c7b7b2b6f039.png)
![](https://img-blog.csdnimg.cn/direct/90d56021cbb84c15bf71374a024a573f.png)
![](https://img-blog.csdnimg.cn/direct/bee310dda2604a689e3bdd4e85c7d4a5.png)
![](https://img-blog.csdnimg.cn/direct/8f24ed22c89f4265be89449ac5de7fcb.png)
![](https://img-blog.csdnimg.cn/direct/8a8a6fab136545e082a08a9c0aa10b15.png)
![](https://img-blog.csdnimg.cn/direct/7933d913eac54baeb4b415615f543b75.png)