【论文阅读笔记】DTSSNet: Dynamic Training Sample SelectionNetwork for UAV Object Detection

诸葛大庆

于 2024-09-06 22:41:56 发布

阅读量503

点赞数 19

文章标签：论文阅读笔记目标检测

本文链接：https://blog.csdn.net/zyq199082/article/details/141959986

版权

【摘要】

航空图像中目标检测器面临以下几个挑战:

1)尺度变化很大；

2)训练样本中正面和负面锚点之间的极度不平衡:少量的(GT)锚点和大量的负面锚点。

在这篇论文中，提出了一种动态训练样本选择网络(DTSSNet)来从两个维度上解决上述问题。提出了一种注意力增强特征模块(AEFM)，通过同时关注与目标相关的信道信息和语义信息来增强基本特征。该模块为准确分类不同尺度的物体提供了更有价值的信息。为了解决训练样本的不平衡问题，本文实现了基于GT信息对训练样本进行划分的动态训练样本选择(DTSS)模块。该模块动态选择样本，确保正锚点和负锚点的表现更加平衡，从而提高学习效果。重要的是，AEFM和DTSS的组合不会引入任何额外的计算成本。在VisDrone2019-DET数据集上的实验评估表明，DTSSNet优于基础检测器和通用方法。此外，在UAVDT基准数据集上验证了DTSSNet的有效性，该数据集达到了最先进的性能。

【介绍】

以前的研究人员已经进行了大量的无人机目标检测实验。例如，Ma等人[8]设计了一种RRPN网络，生成倾斜和定向角度区域建议来处理无人机图像中的旋转。r3 -Net[9]利用R- rpn生成可旋转区域建议，利用R- dn从地形复杂的城市场景中检测和定位车辆。Lin等[10]提出了用于大尺度遥感图像的CRPN-SFNet。在一些区域，无人机目标是稀疏和不均匀分布的，而在另一些区域，它们是高度聚类的。为了防止高分辨率图像分布不均匀，Gao等[11]将高分辨率图像分割成片，直接进行检测。Yang等[12]提出了一种新的网络clusterdet，它生成聚类区域，同时检测区域和全局图像。DSHNet[13]旨在解决无人机目标检测中的类分布不平衡问题。虽然大多数无人机目标检测器关注于锚点重新设计、数据增强或图像裁剪，但只有少数研究探索了训练样本选择作为提高检测精度的手段。

如图1所示，航空数据集显示出中小型目标的显著存在。通过分析VisDrone2019-DET数据集[14]，我们发现超过60.1%的注释样本是小的，34.2%是中等的，5.7%是大的。同样，在UAVDT[15]训练标注中，小对象的分布为61.9%，中对象的分布为36.3%，大对象的分布为1.8%。不同尺度目标在图像中的分布如图2所示。在Visdrone2019-DET数据集上，93.4%的图像包含小型实例，97.8%包含中型实例，60.6%包含大型实例。在UAVDT数据集上，这些数字为小的88.4%，中的87.3%，大的22.6%。通过对数据分布的分析，可以看出VisDrone2019-DET数据集中目标的尺度分布是不平衡的，中小型目标的存在是很明显的。因此，增强这些不同尺度目标的表示对于提高检测精度至关重要。训练数据呈现出明显的不平衡，需要解决这一问题，以提高检测系统的整体性能。

受上述统计数据和前人研究的启发，我们提出了一种新的动态训练样本选择网络(DTSSNet)来解决航空图像中的这两个挑战。DTSSNet的架构如图3所示。

我们首先利用MobileNetV2[16]作为主干提取基本特征。此外，我们引入了一个注意力增强特征模块(AEFM)，通过重新加权通道和语义信息来增强这些特征，从而为它们提供一个全局接受场。提出了一种动态训练样本选择(DTSS)模块，实现了真实损失感知的训练样本选择和解决极端训练样本不平衡。本文的主要贡献可以概括为以下三个方面。

1)为了有效地捕获不同尺度的目标，我们引入了对从主干提取的基本特征进行增强的AEFM。通过引入AEFM，网络可以获得更多与不同尺度对象相关的空间和语义信息。

2)在分离正负样本时，DTSS是一种损失感知的训练样本选择策略。

通过计算分类损失和回归损失，并将它们组合成一个代价矩阵，DTSS动态地适应每个基础真值(GT)的候选正锚的数量。这种方法减少了样本的不均匀性，提高了检测精度，最终提高了模型的整体性能。

3) DTSSNet在航空图像上比基础探测器取得了相当大的性能改进，实验表明，DTSSNet在UAVDT数据集上代表了最先进的探测器，同时在VisDrone2019-DET上实现了比其他探测器更高的检测精度。

本文其余部分的结构如下。在介绍之后，第二节总结了自然景物和空中景物的目标检测技术的发展。在第三节中，我们提出了用于无人机目标检测的DTSSNet的详细架构。

第四节介绍了使用的数据集、实现设置和实验结果。最后，在第五节中，我们通过总结主要发现和贡献来总结本文

【相关工作】

A. Object Detection on Natural Scenery

一般的目标检测方法主要有两种:锚盒和锚点。锚箱法可分为两阶段法和一阶段法。两阶段网络[2]，[4]，[5]，[6]，[10]首先生成区域建议，然后使用另一个网络进行分类和回归，从而实现从粗到精的检测过程。Faster R-CNN的开创性工作[2]是两阶段框架的研究基础。随后的工作重点是利用技术提高MS COCO[17]和Pascal VOC[18]等基准数据集的检测精度像数据增强[19]，[20]，[21]，架构设计[3]，[4]，[22]，以及多尺度特征融合[5]，[6]，[7]。

相比之下，单阶段方法[23]、[24]直接从输入图像中对目标进行分类和回归，导致正负样本明显不平衡。焦点损失[25]和GHM[26]等方法已经部分解决了这一问题。另一方面，锚点方法识别多个预定或自学习的点，并从每个点进行对象回归。例如，FCOS[27]使用边界框的中心表示对象，通过回归直接从中心导出对象尺度。CenterNet[28]使用关键点来检测对象。虽然这些目标探测器在自然场景中的目标检测方面取得了显著进展，但它们在无人机目标检测中经常面临挑战和限制。

B. Object Detection on Aerial Imagery

与传统的目标检测相比，无人机目标检测提出了额外的挑战。随着无人机等空中平台的发展，无人机图像上的目标检测[8]、[10]、[11]、[12]、[13]、[29]、[30]、[31]、[33]、[34]、[35]、[36]、[37]、[38]、[39]日益成为研究热点。例如，提出RRPN[8]生成倾斜和定向角度区域建议，以处理无人机平台不同的转角范围。有些方法[11]、[12]将高分辨率图像分割成碎片，直接检测图像芯片。

Lin等[33]提出了一种上尺度特征聚合框架来增强骨干特征，并利用上采样技术进一步提高检测精度。Tian等[34]提出了一种双网络策略，使用一级检测器粗略检测目标，然后使用VGG作为另一个主干生成新的特征图。最后，双网络结合粗检测和一种新的特征映射来检测更多的小物体，实现从粗到精的检测。DSHNet[13]采用双路径方法处理VisDrone2018-DET数据集中的长尾类分布，这一方法的研究关注相对较少。用于无人机目标检测的轻量级网络也已被探索。SlimYOLOv3[31]引入了L1正则化，并对信息较少的特征通道进行了修剪，从而产生了轻量化目标检测器。ShuffleDet[32]通过合并初始化和可变形模块来重新设计主干架构，以提高速度性能。

此外，面向目标检测技术[37]、[38]、[39]在由卫星和无人机捕获的高分辨率航空图像组成的DOTA数据集[40]上的遥感图像上表现出了高性能。值得注意的是，一些技术依靠复杂的两阶段网络结构来实现对航空图像的高检测精度，但推理时间较慢。一些针对轻量级网络的研究由于检测精度较低而无法满足应用需求。因此，有必要研究一种既能达到较高的检测精度，又能保持对航拍图像快速推理的网络。

C.训练样本选择算法

训练样本选择是基于cnn的检测器的一个关键方面，因为它决定了每个锚的分配，要么是一个对象(正)，要么是背景(负)。它可以分为固定法和DTSS法。固定训练样本选择方法常用在锚盒检测器中[2]、[4]、[10]、[23]、[24]、[25]。通常，中心区分配器用于锚点检测器[27]，[28]。所有这些都是固定的分配，它们利用了相交-超并(IoU)阈值或中心的固定区域。

DTSS方法旨在自适应分配锚点以提高检测精度。NoisyAnchors[41]识别有噪音的锚，并调整其清洁度评分，以更好地与它们的分布保持一致。AutoAssign[42]结合中心点和关节置信度，使用可微加权机制来调整每个位置的置信度。ATSS[43]根据每一级k个候选样本的标准差和均值将锚点划分为正样本或负样本，实现自适应训练样本选择。PAA[44]结合分类和盒子的分数，增加分支来预测箱子和GT的IoU。OTA[45]将正锚和负锚作为最优运输问题，但这需要额外的训练时间。为了简化OTA, SimOTA[46]提出了一种动态top_k分配策略。POTO[47]引入了预测感知的一对一训练样本选择方法，该方法偏离了传统的非最大抑制(NMS)方法，与使用NMS相比取得了优异的性能。稀疏RCNN[48]和OneNet[49]也在目标检测上探索了一对一的训练样本选择。Zhang等[50]介绍了LTM方法来选择最优可学习的正锚。双权法[51]从不同的角度探讨了正负权的分离。多锚学习[52]旨在选择最具代表性的锚。OPA[53]认为点的位置和分类是最优的。虽然这些训练样本选择方法在一定程度上提高了目标检测的准确性，但是专门针对无人机目标检测的研究相对较少。

在本文中，我们的重点是通过动态划分每个GT的正锚和负锚来解决无人机目标检测中训练样本不平衡的问题。我们采用了专门为无人机捕获的图像设计的训练样本选择算法，旨在提高空中目标的检测精度。

III. METHODOLOGY

在本节中，我们将全面概述DTSSNet管道。然后，我们介绍了AEFM，旨在增强基本特征。最后，我们提出了DTSS来实现正、负样本的损耗感知选择。

A. DTSSNet概述

我们的无人机目标检测方法采用端到端单阶段检测框架，该框架由三个主要步骤组成:快速提取基本特征、有效增强特征和损失感知训练样本选择。

如图3所示，我们首先使用MobilenetV2[16]快速提取基本特征映射。随后，我们合并了AEFM来增强基本特性，使其更好表示不同比例的对象。为了实现更高效的模型训练，我们引入DTSS，在训练过程中动态选择正样本和负样本。

B.注意力增强功能模块(AEFM)

从主干网获取基本特征后，通常将其传输到DTSSNet的颈部。在我们的方法中，我们引入AEFM来连接脊柱和颈部。目标是通过显式建模通道相互依赖性来增强基本特征，从而提高网络对不同尺度对象相关信息的敏感性。AEFM结构如图4所示。AEFM的输入是MobileNetV2的基本特征映射，表示为f。使用全局平均池化来计算特定信道的统计信息。为了捕获通道依赖关系，我们采用了一个多层感知(MLP)，由两个具有1 × 1内核大小卷积、批处理归一化和激活函数的convmodule组成。最后一个激活函数是Sigmoid，它作为一种门控机制。MLP的输出是按元素与F相乘得到F '，按元素与F '作为输入求和得到最终的特征映射F '。综上所述，AEFM的计算方法如下:

其中σ为Sigmoid函数。W0为第一个ConvModule的权值，W1为第二个ConvModule的权值。

与传统的检测方法相比，我们的方法采用了AEFM来建立在脊柱和颈部之间的连接，从而增强特征表征。通过引入注意机制，AEFM通过赋予关键信息更大的重要性，同时淡化无关细节，从而促进了无人机图像中目标的检测。由于每个通道捕获不同的响应，因此通道注意机制在FPN[5]颈部之前集成。无人机图像往往包含大量的中小尺度目标。小物体在图像中往往具有较低的像素值和较弱的特征表示，这给检测带来了挑战，因为它们的像素值较低，特征表示较弱。

航拍场景中变化尺度的目标是特征提取的难点。通过引入AEFM，我们可以增强基本特征的表示能力，并将更多的注意力分配到与不同尺度对象相关的信息上。AEFM专门对通道之间的相互依赖性进行建模，为对对象更重要的信息分配更高的权重，同时减少对无关信息的关注。这种关注机制使网络更加敏感，能够关注不同尺度目标的细节，从而提高对无人机变尺度目标的检测性能。

C. Dynamic Training Sample Selection

在目标检测器的训练过程中，确定哪些锚点或框对应于GT是至关重要的。这些与GT重叠的锚点或框被认为是正样本，并通过计算基于GT的损失来用于训练。

值得注意的是，ATSS[43]指出基于点的方法和基于盒的方法检测精度的差异是定义正负训练样本的方式。ATSS根据锚盒与GT之间的中心距离选择top_k候选点，然后将top_k的均值加上标准差作为IoU阈值。该方法在COCO数据集上显示了令人满意的结果。但需要注意的是，当将ATSS应用于不同的数据集(如VisDrone2019-DET和UAVDT)时，由于超参数的不适用性，检测精度可能不令人满意。换句话说，ATSS的超参数需要根据新的数据集或特定的应用场景进行调整，以达到最优的性能。此外，计算每层特征的候选盒的均值和方差需要一些额外的计算，直接利用L2距离进行候选盒选择过于激进。

受OTA[45]和SimOTA[46]的启发，我们提出了DTSS方法，该方法基于GT IoU自动选择候选锚点，并通过迭代计算分类损失和回归损失，为每个GT动态分配正锚点。算法1描述了输入图像的DTSS的工作过程。DTSS的输入为图像I及其对应的GT G, A表示以不同步长和宽高比生成的默认锚框。首先，通过估计锚点中心点是否落在候选区域内，即GT (G)与GT (Ge)中心展开2.5倍形成的正方形的交点，排除无效锚框。如第11-13行所述。然后，我们使用BBoxOverlaps2D函数计算剩余有效锚盒与GT的成对IoU。接下来，我们计算分类(cls)和回归(reg)任务的成本矩阵c，作为锚盒和GT之间不相似性的度量。成本矩阵计算如下:

其中Lcls和Lreg分别代表分类损失，如焦点损失[25]和回归损失(如IoU[54]或GIoU[55]损失)。Pcls和Pbox为锚点Aj提供预测的类别分数和边界框坐标，而Gcls和Gbox则代表GT Vg的GT类别和边界框。参数λ是一个平衡系数。如第14-18行所述

ATSS根据锚盒与GT之间的L2距离选择top_k候选样本。然而，L2距离对物体大小和长宽比的变化不敏感，并且无法固有地捕获尺度信息，使得它在处理不同大小的物体时信息量不足。

相比之下，我们提出的DTSS方法使用锚盒和GT之间的IoU来选择候选锚点，该方法更灵活，可适应不同的锚点形状和方向。我们首先用GT对所有锚点的IoU值进行排序，然后通过以下公式选择top_k个候选样本:

其中candidate_top_k的值在我们的实验中被预定为15。第四节将证明candidate_top_k对无人机数据集不敏感。k表示中心位于G和Ge交点的锚点个数。换句话说，对于每个GT，我们选择在GT和锚框之间具有最高IoU值的top_k锚。接下来，DTSS计算top_k候选者的IoU值的总和，并将值四舍五入，以获得作为所选候选者数量的动态k，如第19-21行所示。对于正样本和负样本的选择，ATSS使用均值和标准差的总和作为阈值来确定每个GT的正锚点。相比之下，DTSS采用不同的方法。首先，它初始化一个带有零的矩阵m，其形状和数据类型与代价矩阵c相同(第22行)。然后，DTSS通过识别代价矩阵c中代价最低的位置，选择动态k个锚盒作为正训练样本。随后，将矩阵m中对应的位置设为1，并根据矩阵m中的值计算正样本(第23-27行)。

当一个锚箱分配给多个GT箱时，只选择成本最低的锚箱。任何剩余的锚盒都被认为是负样本。这种方法使DTSS能够有效地分配正样本和负样本用于训练。

基于GT中心去除无效锚盒:在网络训练过程中，将多个不同比例的锚分配给每个GT对象。鉴于无人机捕获图像中物体的密集分布，通常存在许多模糊的锚点，可能无法准确对应任何物体。已有研究[43]、[45]、[46]表明，将锚点中心点限制在GT区域内，可以显著提高目标检测精度。FCOS[27]采用目标框内的锚点作为潜在候选点，导致大量低质量的正向锚点。相比之下，ATSS[43]将正锚的中心点限制在GT物体的区域内。然而，我们的方法不同于这两种方法。

我们通过限制锚点中心在候选区域内来约束有效锚点，候选区域是GT框(G)与围绕GT中心展开2.5倍形成的正方形(Ge)的交点。通过施加这一限制，我们能够消除无效的锚点，减少模糊锚点的数量，并简化随后的分类分数(cls)和IoU损失的计算。

2)为每个GT选择动态k个正样本:直观地说，分配给每个GT目标的正训练样本的数量应该根据各种因素[45]来确定，包括无人机图像中的目标大小、尺度、遮挡水平和方向。然而，建立从这些因素到正锚点数量的直接映射函数是具有挑战性的。虽然ATSS[43]通过使用统计数据来动态调整IoU阈值来解决这个问题，但它仍然需要一个超参数top_k。top_k值需要针对无人机数据集重新定义。适合特定GT的正锚点数量应与有效捕获该GT回归信息的锚点数量成正比[45]。受[45]的启发，我们提出了一种有效的方法来估计与每个GT相关的正锚的数量。动态k估计是通过计算top_k IoU值的总和并四舍五入来确定候选锚的数量来实现的。DTSS通过使用top_k最高IoU来选择候选锚点，从而为不同规模的对象提供更多信息。

DTSS首先剔除中心点不在G和Ge范围内的无效锚盒，从而大大减少了锚盒IoU的计算。通过汇总候选锚点的top_k IoU值来确定每个GT的动态阳性样本。此外，计算分类损失和回归损失，生成代价矩阵，便于损失感知训练样本的选择。总之，DTSS提供了一种更有效的方法来确定与每个GT对象相关的正锚点的数量。

通过迭代计算损失和动态适应k个正锚点，我们实现了锚点与GT目标之间更好的对齐，从而提高了目标检测精度。DTSS通过航空数据集UAVDT和VisDrone2019-DET实现了最先进的性能。进一步的实验结果显示了DTSS的有效性，在第四节。

诸葛大庆

关注

19
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
【论文阅读笔记】DTSSNet: Dynamic Training Sample SelectionNetwork for UAV Object Detection

以前的研究人员已经进行了大量的无人机目标检测实验。例如，Ma等人[8]设计了一种RRPN网络，生成倾斜和定向角度区域建议来处理无人机图像中的旋转。r3 -Net[9]利用R- rpn生成可旋转区域建议，利用R- dn从地形复杂的城市场景中检测和定位车辆。Lin等[10]提出了用于大尺度遥感图像的CRPN-SFNet。在一些区域，无人机目标是稀疏和不均匀分布的，而在另一些区域，它们是高度聚类的。为了防止高分辨率图像分布不均匀，Gao等[11]将高分辨率图像分割成片，直接进行检测。
复制链接

扫一扫