论文阅读 Density Map Guided Object Detection in Aerial Images

Re-赟

已于 2023-08-11 15:06:41 修改

阅读量753

点赞数

文章标签：论文阅读目标检测人工智能

于 2023-07-19 15:09:01 首次发布

本文链接：https://blog.csdn.net/weixin_45935290/article/details/131801751

版权

文章提出了一种名为DMNet的网络，利用DensityMap来指导航空图像的目标检测。通过对密度图的分析，网络能更好地识别目标分布，优化图像裁剪，从而提高小目标检测的准确性。在VisionDrone和UAVDT数据集上，DMNet展示了最先进的性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Density Map Guided Object Detection in Aerial Images

Abstract

高分辨率航空图像中的目标检测是一项具有挑战性的任务，原因如下：1）目标尺寸的巨大变化，2）目标的非均匀分布。一种常见的解决方案是将大的航空图像分成小的（均匀的）片段，然后在每个小片段上应用目标检测。在本文中，我们研究了图像裁剪策略来解决这些挑战。具体而言，我们提出了一种Density-Map引导的目标检测网络（DMNet），其灵感来自于观察到图像的目标密度图呈现了目标在图像中的分布情况，通过 pixel intensity来表示。由于像素强度的变化，它能够判断一个区域是否有目标，从而为统计裁剪图像提供指导。DMNet具有三个关键组成部分：密度图生成模块、图像裁剪模块和目标检测器。DMNet生成一个密度图，并根据密度强度学习尺度信息，形成裁剪区域。广泛的实验证明，DMNet在两个流行的航空图像数据集VisionDrone 和UAVDT上取得了最先进的性能。

1. Introduction

目标检测是计算机视觉中的一个基本问题，对于监控应用非常重要，例如人脸检测和行人检测。基于深度学习的架构现在已经成为一般目标检测的标准流程（例如，Faster RCNN ，RetinaNet ，SSD ）。尽管这些方法在自然图像数据集（例如，MS COCO数据集和Pascal VOC数据集）上取得了良好的性能，但在专门的图像数据集（例如，航空图像和医学图像）上无法产生令人满意的结果。

由于特殊的view point和大范围的视野，航空图像已成为实际应用中的重要数据源，例如监控。航空图像通常由无人机、飞机或卫星从top view 图采集，因此它们的视觉外观可能与ImageNet 等自然图像显著不同。这些特点导致航空图像目标检测面临一些特殊挑战：（1）由于拍摄角度的变化，在航空图像数据集中存在目标尺度的差异。（2）大多数情况下，不同类别之间的对象数量高度不平衡。（3）航空图像中常见的遮挡（物体之间）和截断（物体出现在边界上）问题。（4）与自然图像数据集相比，小对象在航空图像数据集中占比更大。

早期有关航空图像目标检测的研究利用了一般的目标检测架构，并着重改进小目标的检测。例如在特征提取后引入了上采样模块来增加空间分辨率。生成细粒度的特征表示，以帮助将小目标映射到更大的对应区域。这种改进的小目标检测在流行的数据集[上可能会得到合理的结果，但对于实际应用来说还远远不够令人满意。

为了解决尺度变化问题，另一个有前景的方向是在应用目标检测之前将原始图像裁剪成小的crops/chips，例如均匀裁剪和随机裁剪。在大多数情况下，这些简单的裁剪策略有助于提高小目标的检测精度，因为当它们被调整到原始图像的尺寸时，small crops的分辨率变得更高。然而，它们无法利用语义信息进行裁剪，因此导致大多数裁剪只包含背景。此外，大目标可能会被这些strategies切成两个或更多个不同的片段。

遵循图像裁剪的思路，如何找到合理的裁剪对于航空图像目标检测至关重要。显然，基于distribution of objects 进行裁剪比均匀或随机策略产生更好的裁剪。而如何生成distribution of objects 在类似任务中已经得到研究，即人群计数，该任务也面临尺度和视角变化的相同挑战。在密集的人群场景中，基于边界框的检测可能不适用于小目标。最近的最先进方法利用密度图的优势来估计场景中的人群分布，并取得了令人期待的性能。这激发了我们探索在航空图像目标检测中利用目标密度图生成裁剪的可能性。

本文中，我们提出了一种基于密度图的航空图像检测框架 - DMNet。它利用目标密度图来指示区域内是否存在目标以及目标的密度情况。目标的分布使得我们的裁剪模块能够为进一步的目标检测生成更好的图像裁剪，如图1所示。例如，合适的密度threshold可以过滤掉大部分背景区域，并减少每个crop中的目标数量，从而可以通过对 image crops进行上采样来识别极小的目标。

在这里插入图片描述

图2显示了提出的DMNet的框架。首先，我们引入了一个密度图生成网络，为每个航空图像生成密度图。其次，我们分配一个具有average object scale的窗口，并在密度图上滑动该窗口，且窗口之间不重叠。密度图的强度表示某一位置上目标出现的概率。因此，在每个窗口位置，计算窗口内所有（密度）像素强度的总和，这可以被视为该窗口内目标的可能性。然后，应用密度阈值来过滤掉总强度值较低的窗口。即对于总强度值低于阈值的窗口（即，该窗口内所有像素值都为0），我们将其分配为“0”，对于总强度值高于阈值的窗口，我们将其分配为“1”。接着，我们将被标记为“1”的候选窗口通过连通组件合并成区域，以生成图像裁剪。不同区域中像素强度的变化隐含地提供了context information（例如，相邻目标之间的背景），从而相应地生成有效的裁剪。最后，我们使用裁剪后的图像来训练目标检测器。

在这里插入图片描述

与现有方法相比，DMNet具有以下优势：（1）它通过目标密度图进行简单的图像裁剪设计。（2）与均匀裁剪策略相比，它能够减轻object truncation，并保留更多的上下文信息。（3）DMNet只需要训练一个简单的密度生成网络，而不需要训练两个子网络（即聚类候选子网络（CPNet）和尺度估计子网络（ScaleNet））。

总结来说，本文具有以下贡献点：

我们首次引入了密度图的概念用于航空图像目标检测，提出了一种基于密度图的裁剪方法，利用目标之间的空间和上下文信息来改善检测性能。
我们的一个重要贡献是开发了一种有效的算法来生成图像裁剪，无需训练额外的深度神经网络，这使得我们的方法与其他方法有所区别。
广泛的实验证明，我们提出的方法在代表性的航空图像数据集，包括VisionDrone 和UAVDT上，实现了最先进的性能。

2. Related work

略过

3. Density Map guided detection Network(DMNet)

3.1. Overview

如图2所示，DMNet包含三个组件，分别是密度图生成模块、图像裁剪模块和融合检测模块。具体而言，我们首先训练一个密度图生成网络，为每个航空图像预测密度图。然后，在生成的密度图上应用滑动窗口，计算像素强度的总和，并将其与density threshold进行比较，形成一个density mask。我们将像素强度超过密度阈值的窗口连接起来，生成image crops。最终的检测结果将从image crops和原始图像的检测结果中进行融合。

3.2. Density map generation

3.2.1 Density map generation network

密度图在人群计数领域具有重要意义。 Singleimage crowd counting via multi-column convolutional neural network提出了多列卷积神经网络（MCNN）来学习人群计数任务的密度图。由于每个图像中 head size的变化，单个具有固定感受野的列可能无法捕捉足够的特征。因此，引入了三个列来增强特征提取。在航空图像目标检测中，一般的目标类别可以通过尺度（小、中、大）广泛划分为三个子类别。为了捕捉所有尺度下平衡的特征模式，我们采用MCNN 来生成图像裁剪的目标密度图。

用于训练密度图生成网络的损失函数基于pixel-wise的平均绝对误差，如下所示：
在这里插入图片描述
Θ表示密度图生成模块的参数。N表示训练集中图像的总数。X_i表示输入图像，D_i表示图像Xi的真实密度图。D(X_i; Θ)表示由密度生成网络生成的密度图。

由于MCNN \引入了两个池化层，输出特征图的高度和宽度都会缩小4倍。为了保留原始分辨率，我们通过cubic interpolation将生成的密度图上采样4倍，恢复到原始分辨率。对于图像的高度或宽度不是4的倍数的情况，我们直接将图像调整为其原始分辨率。

添加相同数量的上采样层来恢复分辨率也是一种有效的解决方案。然而，在我们的实验中，观察到这种方法只会产生轻微的差异（在评估中，平均绝对误差约为0.02）。然而，在训练过程中，特征图的大小会大大增加，这可能会导致对具有大分辨率的图像产生内存问题。因此，在我们的密度图生成网络中，我们没有引入上采样层。

3.2.2 Ground truth object density map

在训练阶段生成航空图像的目标ground truth，我们遵循人群计数的思想，其中开发了两种方法，即geometry-adaptive核和 geometry-fixed核。这两种方法遵循相似的概念。我们使用 Gaussian kernel（通常归一化为1）来模糊每个object annotation，以生成ground truth density maps。adaptive核和fixed核的区别关键在于传播参数σ。固定核中σ是固定的，而自适应核中σ是通过K最近邻（KNN）方法计算得出的。几何自适应核的公式定义如下

在这里插入图片描述
其中x_i是target of interest。G_σi(x)是高斯核，它与δ(x - x_i)卷积以生成ground truth密度图。 $\overline{\text{d~i~}}$ 是K个最近目标的平均距离。在我们的实现中，我们更倾向于使用固定核，因为我们认为几何自适应核的以下假设被违反了：（1）目标既不属于单一类别，也不均匀地分布在图像中，导致无法保证准确估计几何失真。（2）不合理地假设目标的大小与两个相邻目标的平均距离有关，因为航空图像中的目标不像在人群计数中那样密集分布。基于这些考虑，我们相应地选择了几何固定核。

3.2.3 Improving ground truth with class-wise kernel

在fixed kernel方法中，高斯滤波器的标准差对于所有对象都是恒定的，无论实际对象的形状如何。这会导致在裁剪大型对象（例如公交车等）时可能发生truncation。图3右上方提供了一个例子。
在这里插入图片描述

为了解决可能的截断问题，我们提出了class-wise密度图的ground truth生成方法。首先，在训练集上进行探索性数据分析，分析每个target category的平均尺度。然后，通过估计每个object category的平均尺度来计算σ。

假设一个类别的平均高度和宽度分别为H_i和W_i，其中i是当前的对象类别，我们通过应用公式3来估计σ

在这里插入图片描述
我们记录了每个类别的σ值，并将它们应用于公式2来生成密度图。这样，我们能够更适当地适应中等和大型对象的尺度。图3中提供了固定核和我们提出的class-wise kernel for ground truth密度图生成方法的比较。

3.3. Image cropping based on density map

3.3.1 Density mask generation

DMNet的核心是通过密度图提供的 contextual information来正确裁剪图像。从图1中提供的密度掩码中可以观察到，有更多目标的区域（用黄色标记）具有比目标较少的区域更高的像素强度。通过在区域内设定一个阈值，我们可以估计目标数量，并相应地过滤掉没有或目标数量有限的区域内的像素。

我们在密度图上引入 sliding window，其中窗口的大小是训练集中objects的平均大小。我们以窗口大小为步长滑动窗口（即不重叠）。然后，我们计算当前窗口中所有像素值的总和，并将总和与密度阈值进行比较。如果总和值低于阈值，则该窗口内的像素将全部为0，反之则为“1”。这将得到一个由0和1值组成的density mask。算法1中详细说明了实现细节。

在这里插入图片描述

密度阈值用于控制密度图中的噪声。同时，它动态调整最终每个density crop中收集的目标数量。通过增加阈值，裁剪的边界将变得不规则，边界上的像素在更高的阈值下更有可能被过滤掉。这导致更多的裁剪中可能只有少数目标。图4提供了一个可视化示例，图形化解释不同密度阈值如何影响裁剪边界。
在这里插入图片描述

3.3.2 Generating density crops from density mask

生成的density mask表示物体的存在。我们基于密度掩码生成图像裁剪区域。首先，我们选择所有对应密度掩码值为“1”的像素。其次，我们将八个相邻连接的像素合并成一个大的候选区域。最后，我们使用候选区域的外接矩形裁剪原始图像。我们过滤掉分辨率低于密度阈值的裁剪区域。原因如下：（1）一些预测的密度图质量较低，包含了在较低密度阈值下遍布整个图像的噪声。因此，可能会得到一些随机的单个窗口作为单个裁剪区域。保留这样的裁剪区域是不理想的。（2）目标检测器无法在低分辨率裁剪区域上表现良好，因为将这些裁剪区域调整到原始输入尺寸后，它们会变得非常模糊。

3.4. Object detection on density crops

在从密度图中获取图像裁剪区域之后，下一步是检测物体并融合density crops区域和整个图像的结果。可以选择任何现有的现代检测器。首先，我们在原始validation set和density crops上分别进行检测。然后，我们收集来自密度裁剪区域检测的预测边界框，并将它们添加回原始图像的检测结果中，将它们融合在一起。最后，我们对所有边界框应用非最大抑制（NMS），并计算最终结果。NMS的阈值为0.5，请注意，在我们的融合设计中，我们不会从原始检测结果中删除边界框。根据我们的可视化分析，我们观察到原始检测结果包含了正确检测的大型物体。删除这些检测结果会导致AP_large的下降，这不能完全显示检测器的性能。因此，在评估过程中，我们保留这些检测到的边界框。

4. Experiments

4.1. Implementation details

我们的实现基于MMDetection工具包。密度图生成选择了MCNN作为基线网络。对于目标检测器，我们使用了带有特征金字塔网络（FPN）的Faster R-CNN。除非另有说明，我们在所有实验中使用默认配置。我们使用ImageNet预训练的权重来训练检测器。在VisionDrone数据集的训练和测试阶段，密度阈值设为0.08，UAVDT数据集设为0.03。用于过滤边界框的最小阈值设置为70×70。

密度图生成模块使用SGD优化器进行80个epochs的训练。初始学习率为10^-6。动量为0.95，权重衰减为0.0005。我们只使用一个GPU来训练密度图生成网络，并且没有使用数据增强。

对于目标检测器，在两个数据集上将输入大小设置为600×1000。检测器在两个GPU上进行了42个epochs的训练，每个GPU的批大小为2。初始学习率为0.005。在第25和35个epochs时，我们将学习率降低10倍。融合检测中的非最大抑制阈值为0.7。融合检测后允许的最大边界框数量为500。除非另有说明，我们在所有实验中使用MCNN生成密度图，并使用带有FPN的Faster R-CNN来检测目标。

4.2. Datasets

略过

4.3. Evaluation metric

我们采用与MS COCO 中提出的相同评估指标。使用了六个评估指标，即AP（平均精度），AP₅₀，AP₇₅，AP_small，AP_medium和AP_large。AP是在多个IoU阈值下的平均精度，从0.50到0.95，步长为0.05。由于AP考虑了所有阈值，我们使用AP来衡量和比较所提出的方法与其他竞争方法之间的性能。同时，由于生成的图像裁剪数量会影响推理速度，我们还在表格中记录了图像数量，以进行公平比较。我们用“＃img”表示验证集中使用的总图像数（包括原始图像和密度裁剪图像）。

在这里插入图片描述

4.4. Quantitative result && 4.5. Ablation study

略过

5. Conclusion

In this paper, we propose the density map guided detection network (DMNet) to address the challenges in aerial image object detection. Density map provides spatial distribution and collects window-based pixel intensity to implicitly form the boundary of a potential cropping region, which benefits the following image cropping process. The proposed DMNet achieves state-of-the-art performance on two popular aerial image detection datasets under different backbone networks. Extensive ablation studies are conducted to analyze the contribution of each component in DMNet. Our proposed density map based image cropping strategy provides a promising direction to improve the detection accuracy in high resolution aerial images.