论文阅读 Clustered Object Detection in Aerial Images

Re-赟

已于 2023-07-19 11:18:19 修改

阅读量691

点赞数

文章标签：论文阅读目标检测人工智能

于 2023-07-18 16:07:29 首次发布

本文链接：https://blog.csdn.net/weixin_45935290/article/details/131783286

版权

文章目录

- Clustered Object Detection in Aerial Images

Clustered Object Detection in Aerial Images

Abstract

在航拍图像中检测目标具有至少两个挑战性因素：(1) 目标对象（如行人）在像素上非常小，使其很难与周围背景区分开；(2) 目标通常分布稀疏且不均匀，使得检测非常低效。在本文中，我们观察到这些目标通常是聚集的，解决了这两个问题。我们提出了一个聚类检测(ClusDet)网络，将目标聚类和检测统一到一个端到端的框架中。ClusDet的关键组件包括一个聚类建议子网络(CPNet)，一个尺度估计子网络(ScaleNet)，以及一个专用的检测网络(DetecNet)。给定输入图像，CPNet产生目标聚类区域，ScaleNet估计这些区域的目标尺度。然后，每个经过尺度归一化的聚类区域被送入DetecNet进行目标检测。ClusDet相较于以前的解决方案具有以下几个优势：(1) 大大减少了最终目标检测所需的图像块数，从而实现了高运行效率；(2) 基于聚类的尺度估计比以前使用的基于单个对象的方法更准确，从而有效地提高了对小目标的检测能力；(3) 最终的DetecNet专门针对聚类区域进行设计，并隐含地建模了prior context information，从而提高了检测精度。我们在三个流行的航拍图像数据集（包括VisDrone、UAVDT和DOTA）上测试了所提出的方法，在所有实验中，ClusDet相对于现有的最先进检测器表现出了很好的性能。

1. Introduction

随着深度神经网络的发展，近年来对于自然图像（例如在MS COCO 中的600×400像素图像）的物体检测（例如Faster R-CNN、YOLO 、SSD 等方法）取得了巨大进展。然而，对于航拍图像（例如在VisDrone中的2,000×1,500像素图像），这些检测器的性能在准确性和效率方面远未令人满意，这是由两个挑战引起的：(1) 目标相对于图像通常具有较小的尺度；(2) 目标在整个图像中分布稀疏且不均匀。

与自然图像中的物体相比，航拍图像中的scale challenge 导致深度网络对物体的feature representation不够有效。因此，现代检测器很难有效利用 appearance information来区分物体与周围背景或类似物体。为了应对尺度问题，一个自然的解决方案是将航拍图像划分为几个均匀的小图块，然后对每个图块进行检测。尽管这些方法在一定程度上缓解了分辨率问题，但由于忽视了目标的稀疏性，它们在执行检测时效率较低。因此，大量的计算资源被浪费在稀疏甚至没有目标的区域上（见图1）。从图1中可以观察到，在航拍图像中，目标不仅稀疏且不均匀分布，而且往往在某些区域高度聚集。例如，行人通常集中在广场上，车辆集中在高速公路上。因此，提高检测效率的一种直观方法是将检测器专注于这些聚集区域，这些区域有大量的目标存在。

在这里插入图片描述
受到这一动机的启发，本文提出了一种聚类检测（ClusDet）网络，通过将object检测和cluster检测集成在统一框架中来解决前述两个挑战。如图2所示，ClusDet包括三个关键组件，包括cluster proposal sub-network（CPNet）、scale estimation subnetwork（ScaleNet）和baseline detection network（DetecNet）。根据航拍图像的初始检测结果，CPNet生成regions of object clusters。在获得聚类区域后，它们被裁剪出来进行后续的细粒度检测。为了实现这一目标，这些区域首先需要被调整大小以适应检测器，这可能导致聚类区域中的物体变得非常大或非常小，从而降低检测性能。为了解决这个问题，我们提出了ScaleNet来估计每个聚类图块中物体的适当尺度，然后在将其输入检测器之前对图块进行相应的重新缩放，然后，每个聚类图块被送入专用的检测器DetecNet进行细粒度检测。最终的检测结果是将聚类图块和全局图像上的检测结果融合而得。

在这里插入图片描述
与之前的方法相比，所提出的ClusDet具有以下几个优势：(i) 由于CPNet的存在，我们只需要处理具有大量目标的聚类区域，从而显著降低计算成本并提高检测效率；(ii) 在ScaleNet的帮助下，每个聚类图块都会被优化以进行更好的后续细粒度检测，从而提高准确性；(iii) DetecNet专门用于聚类区域检测，并隐式地prior context information，进一步提高检测精度。在三个航拍图像数据集的广泛实验中，ClusDet在单一模式下实现了最佳性能，同时具有较低的计算成本。

总的来说，本文的贡献有以下几点：

提出了一种新颖的ClusDet网络，同时解决航拍图像中目标检测的尺度和稀疏性挑战。
提出了一种有效的ScaleNet，以减轻聚类图块中非均匀尺度问题，从而实现更好的细粒度检测。
在三个代表性的航拍图像数据集（包括VisDrone ，UAVDT ，DOTA ）上取得了最先进的性能，并且计算成本较低。

2. Related work

略过

3. Clustered Detection (ClusDet) Network

3.1. Overview

如图2所示，航拍图像的检测包括三个阶段：聚类区域提取、对聚类图块的fine detection和检测结果的融合。具体而言，在航拍图像的特征提取后，CPNet将特征图作为输入，并输出clustered regions。为了避免处理过多的聚类图块，我们提出了一个 iterative cluster merging（ICM）模块，以减少噪声聚类图块。然后，将聚类图块以及全局图像上的初始检测结果输入ScaleNet，以估计聚类图块中物体的适当尺度。有了尺度信息，聚类图块会被重新缩放，并通过DetecNet进行细粒度检测。最终的检测结果通过标准的非极大值抑制（NMS）将每个聚类图块和全局图像的检测结果进行融合获得。

3.2. Cluster Region Extraction

聚类区域提取包括两个步骤：使用聚类建议子网络（CPNet）进行初始聚类生成和使用迭代聚类合并（ICM）进行聚类减少。

3.2.1 Cluster Proposal Sub-network (CPNet)

聚类区域提取的核心是聚类建议子网络（CPNet）。CPNet在航拍图像的high-level特征图上工作，旨在预测聚类的位置和尺度。受到区域建议网络（RPN）的启发，我们将CPNet形式化为一个完全卷积网络块。具体而言，CPNet的输入是来自特征提取骨干的high-level feature maps，并分别使用两个子网络进行回归和分类。虽然CPNet与RPN有相似的思想，但它们是不同的。RPN用于提议目标的候选区域，而CPNet旨在提议clusters的候选区域。与object proposal相比，聚类的大小要大得多，因此CPNet需要比RPN更大的感受野。因此，我们将CPNet附加在特征提取骨干之上。

值得注意的是，CPNet的学习是一个 supervised 的过程。然而，现有的公共数据集都没有为聚类提供 groundtruth。在这项工作中，我们采用了一个简单的策略来生成训练CPNet所需的聚类 groundtruth，请参阅补充材料。

3.2.2 Iterative Cluster Merging (ICM)

如图3（a）所示，我们观察到CPNet生成的初始聚类区域非常密集和混乱。这些密集和混乱的聚类区域很难直接用于细粒度检测，因为它们之间有很高的重叠并且尺寸较大，在实践中导致极大的计算负担。为了解决这个问题，我们提出了一个简单而有效的iterative cluster merging（ICM）模块来清理聚类。设B = {B_i}^Nb _i=1为由CPNet检测出的N_B个聚类边界框的集合，R = {R_i}^Nb _i=1为相应的聚类分类得分。通过预定义的重叠阈值τop和合并后的最大聚类数N_max，我们可以通过算法1获得合并后的聚类集合B’ = {B’_i}^Nb’ _i=1。

在这里插入图片描述

简而言之，我们首先找到得分最高的B_i，然后选择与B_i的重叠大于阈值τop的聚类与B_i合并。所有合并后的聚类被删除。然后，我们重复上述过程，直到B为空。上述所有过程对应于算法1中的非最大合并（NMM）。我们多次进行NMM，直到达到预设的Nmax。有关NMM的详细信息，请参阅补充材料。图3（b）展示了最终合并后的聚类，表明所提出的ICM模块能够有效地合并密集和混乱的聚类。

在这里插入图片描述

3.3. Fine Detection on Cluster Chip

在获取了聚类区域之后，我们使用专用的检测器对这些区域进行细粒度检测。与现有方法直接将这些区域调整大小不同，我们提出了一个尺度估计子网络（ScaleNet）来估计区域内对象的尺度，避免了对象尺度过大或过小导致检测性能下降。根据估计的尺度，ClusDet对每个区域进行partition and padding（PP）操作以进行检测。

3.3.1 Scale Estimation Sub-network (ScaleNet)

我们将 scale estimation视为一个回归问题，并通过一系列全连接网络来构建ScaleNet。如图4所示，ScaleNet接收三个输入，包括从网络主干提取的特征图、聚类边界框和全局图像上的初始检测结果，并输出聚类区域内对象的相对尺度偏移量。这里的初始检测结果是从检测子网络获得的。

在这里插入图片描述

对于聚类区域i，我们定义t^* _i = (p_i - s^*_i) / p_i 为relative scale offset，其中p_i表示检测到的对象的 reference scale，s^*_i表示聚类区域i内groundtruth boxes的平均尺度。因此，ScaleNet的损失可以数学地定义为：
在这里插入图片描述
其中，t _i = (p_i - s_i) / p_i 表示估计的 relative scale offset，si表示 estimated scale，M表示聚类边界框的数量。reg是smoothly L1 loss function，

3.3.2 Partition and Padding (PP)

partition and padding（PP）操作被用来确保对象的尺度在一个合理的范围内。给定聚类边界框B_i，对应的估计对象尺度S_i和检测器的输入尺寸S_in，我们可以在检测器的输入空间中估计对象尺度:Sⁱⁿ_i = S_i × S_in/ S_i 如果尺度Sⁱⁿ_i大于一定范围，那么聚类就会被按比例填充，否则会被分成两个相等大小的聚类区域。需要注意的是，填充区域中的检测结果将在最终的检测中被忽略。这个过程的可视化效果如图5所示。具体的尺度范围设置在第4节中进行讨论。

在这里插入图片描述
在调整了聚类区域的尺度之后，一个专门的baseline detection network（DetecNet）将执行object detection。DetecNet的架构可以是任何最先进的检测器。检测器的主干可以是任何标准的主干网络，例如VGG ，ResNet ，ResNeXt 等。

3.4. Final Detection with Local-Global Fusion

最终对航拍图像的检测结果是通过使用（NMS）后处理来融合聚类区域内的局部检测结果和整个图像的全局检测结果（见图6）。局部检测结果是通过上述提到的我们所提出的方法得到的，而全局检测结果是来自于检测子网络（图2）。需要注意的是，任何现有的现代检测器都可以用于全局检测。
在这里插入图片描述

4. Experiments

4.1. Implementation Details

我们基于Detectron和Caffe2框架来实现ClusDet。采用了基于特征金字塔网络（Feature Pyramid Network，FPN）的Faster R-CNN（FRCNN）作为基线检测网络（DetecNet）。CPNet的架构由一个5×5卷积层，后跟两个sibling 1×1卷积层（分别用于回归和分类）实现。在ScaleNet中，将特征图转换为特征向量的FC层大小为1024；scale offset regressor中的FC层大小分别为1024和1。在NMM过程中合并聚类的IoU阈值设为0.7。在聚类区域 partition and padding中，目标尺度范围设置为[70, 280]像素，与COCO数据集中的定义一致。

Training phase 对于VisDrone和UAVDT数据集，检测器的输入大小设置为600×1000像素，在DOTA数据集上设置为1000×1000像素。在三个数据集上，训练数据通过将图像分成chips进行扩充。在VisDrone和UAVDT数据集上，每张图像均匀分成6个和4个不重叠的chips。设置特定数量的chips的原因是，裁剪后的chips大小可以与COCO 数据集中的大小相似。在DOTA 数据集上，我们使用作者提供的工具来划分图像。在使用2个GPU在VisDrone 和UAVDT 数据集上训练模型时，将基本学习率设置为0.005，总迭代次数设置为140k。在前120k次迭代之后，学习率降低到0.0005。然后，在降低学习率到0.00005之前，我们对模型进行100k次迭代的训练。使用mentum0.9和参数衰减0.0005（权重和偏差）。在DOTA 数据集上，基本学习率和总迭代次数分别设置为0.005和40k。在30k次和35k次迭代后，学习率降低0.1倍。

Test phase 检测器的输入大小与训练阶段相同（除非另有说明）。在cluster chip 生成中，聚类区域的最大数量（TopN）在VisDrone 上设为3，在UAVDT上设为2，在DOTA 上设为5。在融合检测中，标准非极大值抑制（NMS）的阈值在所有数据集上设为0.5。最终检测数量设置为500。

4.2. Datasets && 4.3. Compared Methods && 4.5. Ablation Study

略过

在这里插入图片描述

5. Conclusion

We present a Clustered object Detection (ClusDet) network to unify object clustering and detection in an end-toend framework. We show that ClusDet can successfully predict the clustered regions in images to significantly reduce the number of chips for detection so as to improve the efficiency. Moreover, we propose a cluster-based object scale estimation network to effectively detect the small object. In addition, we experimentally demonstrate that the proposed ClusDet network implicitly models the prior context information to improve the detection precision. By extensive experiments, we show that our method obtains stateof-the-art performance on three public datasets