IEEE Transactions on Geoscience and Remote Sensing
1、FFCA-YOLO for Small Object Detection in Remote Sensing Images【FFCA-YOLO 用于遥感图像中小目标检测】
特征表示不足、背景混淆等问题使得遥感中小目标的探测任务变得艰巨。特别是当算法将部署在机上进行实时处理时,这需要在有限的计算资源下对准确性和速度进行广泛的优化。为了解决这些问题,本文提出了一种称为特征增强、融合和上下文感知 YOLO (FFCA-YOLO) 的高效检测器。FFCA-YOLO 包括三个创新的轻量级和即插即用模块:功能增强模块 (FEM)、功能融合模块 (FFM) 和空间上下文感知模块 (SCAM)。这三个模块分别提高了局域网感知、多尺度特征融合和全局关联跨信道和空间的网络能力,同时尽可能避免增加复杂性。因此,小物体的弱特征表示得到了增强,并且可混淆的背景被抑制了。使用两个用于小目标检测的公共遥感数据集 (VEDAI 和 AI-TOD) 和一个自建数据集 (USOD) 来验证 FFCA-YOLO 的有效性。FFCA-YOLO 的准确率达到 0.748、0.617 和 0.909(以 mAP50 为单位),超过了几个基准模型和最先进的方法。同时,FFCA-YOLO 的稳健性也在不同的模拟降解条件下得到了验证。此外,为了在保证效率的同时进一步减少计算资源消耗,通过基于部分卷积 (PConv) 重建 FFCA-YOLO 的主干和颈部,优化了 FFCA-YOLO (L-FFCA-YOLO) 的精简版。与 FFCA-YOLO 相比,L-FFCA-YOLO 具有更快的速度、更小的参数尺度和更低的计算能力要求,但精度损失很小。源代码将在 https://github.com/yemu1138178251/FFCA-YOLO
2.用于遥感图像语义分割的 Swin Transformer 嵌入 UNet
Swin Transformer Embedding UNet for Remote Sensing Image Semantic Segmentation
全局上下文信息对于遥感 (RS) 图像的语义分割至关重要。然而,现有的大多数方法都依赖于卷积神经网络 (CNN),由于卷积运算的局部性,直接获取全局上下文具有挑战性。受具有强大全局建模能力的 Swin transformer 的启发,我们提出了一种名为 ST-U 形网络 (UNet) 的新型 RS 图像语义分割框架,它将 Swin transformer 嵌入到经典的基于 CNN 的 UNet 中。ST-UNet 构成了 Swin 变压器和 CNN 并行的新型双编码器结构。首先,我们提出了一个空间交互模块(SIM),它通过建立像素级关联来对 Swin transformer 块中的空间信息进行编码,以增强被遮挡对象的特征表示能力。其次,我们构建了一个特征压缩模块(FCM),以减少细节信息的损失,并在 Swin transformer 的补丁标记降采样中浓缩更多的小尺度特征,从而提高了小尺度地面目标的分割精度。最后,作为双编码器之间的桥梁,关系聚合模块 (RAM) 旨在将 Swin 转换器的全局依赖项分层集成到 CNN 的功能中。我们的 ST-UNet 分别对 ISPRS-Vaihingen 和 Potsdam 数据集进行了重大改进。该代码将在 https://github.com/XinnHe/ST-UNet .