Abstract
遥感图像中准确的目标检测非常重要,因为军事和民用领域的安全、交通和救援应用需要充分分析和使用这些图像。针对遥感图像中许多小尺寸目标难以检测的问题,本文提出了一种基于S2A-NET网络的改进S2ANET-SR模型。本文 将原始图像和缩小图像同时馈入检测网络,然后设计了缩小图像的超分辨率增强模块,以增强小目标的特征提取,之后,感知损失和纹理匹配损失被提出作为监督。进行了扩展实验以评估通用遥感数据集 DOTA 的性能,结果表明我们提出的方法可以达到 74.47% mAP,比 S2A-NET 的精度提高 0.79%。
1. Introduction
遥感技术的发展使人类进入了立体、多层次、多方位的对地观测新时代。遥感影像数据处理可用于军事、气象等领域。然而,由于遥感图像是鸟瞰图,因此包含许多复杂的空间场景和大量不同的对象。遥感图像中的目标检测不同于一般的目标检测,因为存在大量的小的、杂乱的和旋转的目标,这使得行人和车辆等遥感图像中的小目标的检测变得更加困难。
目标检测是计算机视觉领域的一个基础性问题,可广泛应用于环境监控、入侵检测、人机交互等诸多领域。其目标是快速准确地检测场景中的特定物体,从而为一些计算机视觉应用场景提供不可或缺的信息。目标检测的发展大致可以分为传统方法和基于深度学习的方法。传统的人工特征提取方法的性能自2010年以来鲜有提升。基于卷积神经网络的深度学习方法成为全球研究领域的焦点。随着计算能力的快速发展和优秀网络结构的出现,基于深度学习的目标检测获得了极大的成功。
深度学习的出现给遥感图像中的目标检测领域带来了前所未有的机遇。尽管研究人员在各个研究领域都在贡献自己的想法和解决方案,但仍有一些问题没有得到有效解决。小目标检测是这些重要而紧迫的问题之一,仍然需要持续努力来克服[1,2]。在本文中,我们基于 S2A-NET [3] 提出了一种名为 S2ANET-SR 的遥感图像目标检测算法,旨在提高遥感图像中小目标的检测精度。由于本文给出的框架具有普适性,本文提出的算法也可以应用于其他需要小目标检测的领域。
该工作的贡献总结如下:
• 本文提出了一种基于超分辨率方法的目标检测模型S2ANET-SR,设计了一个损失函数来提高遥感图像中小目标的检测性能。
• 本文删除了FAM 模块中的分类组件,以保持模型复杂度和参数数量与S2A NET 几乎相同。
• 本文在DOTA 数据集上的定向对象检测任务上报告了74.47% 的mAP,与S2A-NET 基线模型相比实现了0.79% 的改进。
2. Related work
2.1. 遥感图像中的目标检测
在过去的十年中,自然场景中的目标检测取得了重大进展,但遥感图像中目标检测领域的进展一直缓慢,因为航拍场景中缺乏注释良好的数据集。为促进对地观测和遥感图像目标检测的研究,提出了航拍图像目标检测(DOTA)的大规模数据集[4]。同时,在定向边界框上训练的 Faster R-CNN (FR-O) 被用作 DOTA 的基线模型,在 Faster R-CNN 的回归分支中添加了一个额外的回归目标 θ 来表示旋转的对象 [4]。 RoI Transformer 不是密集地对不同角度的锚点进行采样,而是通过在 RPN 阶段 [5] 轻型全连接层学习旋转 RoI 的变换参数来提取感兴趣区域 (RoI) 的旋转不变特征。最近提出的 S2A-NET 可以通过一种新颖的 对齐卷积 Alignment Convolution 提取细化的锚框的位置信息,并通过 Anchor Refinement Network锚框细化网络生成高质量的锚框[3] 。这些巨大的进步为对齐特征提供了新的方法,以便算法学习更准确的特征,但遥感图像中的密集物体和小尺寸目标仍然是检测器面临的挑战。
2.2.小目标检测
自动驾驶技术需要准确检测交通信号灯和行人。小的早期肿瘤区域的检测在医学治疗中具有重要意义。因此,提高图像中存在的小目标的识别和分割精度对于许多应用来说都是非常有益的。 T.-Y. Lin 等人在 2017 年提出了特征金字塔网络(Feature Pyramid Networks,FPN),通过构建多尺度特征图,使检测算法能够检测图像中不同尺度的目标,有效提高了小目标的检测精度[6]。多分支预测的思想也被 Yanghao Li 等人所借鉴,他们 提出了用于目标检测的尺度感知Trident 网络,并基于 ResNet-101 [7] 构建了具有不同感受野的并行多分支。 Jianan Li 等人提出了一种新的感知生成对抗网络(Perceptual GAN)模型,通过缩小小目标与大目标的特征信息差异来提高小目标检测能力[8]。检测难度较大的小目标在图像中频繁出现,因此检测算法整体性能的提升需要在小目标检测上有所突破。
2.3. 超分辨率方法
超分辨率是一种利用低分辨率图像生成高分辨率图像,同时恢复尽可能多的详细信息的技术 [9]。 SRCNN 是首次成功尝试仅使用卷积层进行超分辨率