文献阅读系列-1|Design and Training of Deep CNN-Based Fast Detector in Infrared SUAV Surveillance System-CSDN博客

本文链接：https://blog.csdn.net/weixin_45875199/article/details/108297682

Design and Training of Deep CNN-Based Fast Detector in Infrared SUAV Surveillance System

论文撰写文献阅读

提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

Design and Training of Deep CNN-Based Fast Detector in Infrared SUAV Surveillance System
外文文献阅读-1
- 摘要
一、引言
二、深度残余网络多尺度特征融合方法
三、数据集分析和加权增强方法
- A.数据集
- B.加权扩增法
四、实验
五、讨论
总结

外文文献阅读-1

摘要

监控系统中小型无人驾驶飞行器（SUAV）目标的实时检测由于其机动性高、突发和体积小而成为一项挑战。在这项研究中，我们使用红外传感器和基于卷积神经网络（CNN）的探测器实现SUAV目标的实时检测。现有物体探测器通常承受着计算负担或小目标的检测精度较低，这限制了其实用性。为了解决这些问题，我们开发了基于深残网络的实时SUAV目标检测算法。为了提高对小目标的敏感性，提出了一种横向连接的多尺度特征融合方法，将上下文特征和语义特征充分结合。一个带几何分析的密集预定义框用于单级预测。与最先进的物体探测器相比，该方法在平均精度和每秒帧数方面实现了卓越的性能。由于训练集是有限的，为了提升泛化能力，我们调查了数据扩增和数据平衡带来的好处，并提出了加权扩增方法。建议的方法提高了探测器的鲁棒性和整体精度。

以下是这篇文章正文内容，文章中的一些思想以及网络设计值得参考

一、引言

在复杂背景中悬停时，SUAV目标的红外特性会产生强烈的噪声干扰，信噪比降低，使得复杂背景下的目标检测极其困难。现有的成熟的基于CNN的目标检测方法可分为两组：高精度two-stage方法（R-CNN，快速R-CNN，Faster R-CNN）和高速one-stage（SSD，Yolo，Yolo9000和Yolo v3）。虽然two-stage检测方法在检测精度方面非常出色（尤其是边界框的回归精度），但由于基于感兴趣区域（RoI）提取和边界框优化的two-stage体系结构，网络速度有限，无法满足实时性要求。one-stage检测方法受益于one-stage预测策略，使网络达到快速检测速度，但检测精度略低。这些方法不能解决处理速度和检测精度之间的权衡问题。
为了实现检测精度和计算效率之间的平衡，我们提出了一个one-stage检测网络，该网络结合了密集铺面的预定义框预测策略，并采用目标的几何特征来建立预定义框的规模。具体来说，在顶层设计中，多尺度预测通过密集和横向地将浅层要素与深层要素连接，以提高对小目标检测的灵敏度。
本文的贡献可以概括如下：（1）利用红外传感器和深度学习实时探测器成功研制出SUAV监控系统，以保护以前没有利用过的高价值物体。由于没有公开提供训练和测试数据集，我们构建了自己的红外 SUAV 目标数据集作为基准。（2）努力平衡SUAV检测的精度和速度，提出了SUAV目标的实时检测器，采用基于多尺度特征融合和密集排列预定义框的横向连接，分别提高了对小目标的检测灵敏度和位置预测的准确性。（3）为解决训练样本不足和不平衡导致的通用能力差的问题，本文探讨了数据数量和比例对SUAV目标检测器小样本训练的影响，并提出了实现数据平衡的加权扩增方法实验结果表明，该方法能提高算法的鲁棒性和平均精度。

二、深度残余网络多尺度特征融合方法

A.网络结构设计

为了实现检测速度和精度的平衡，提高小目标的检测精度，我们提出了一种深残网络为基础的单级探测器，具有多尺度特征融合和滑动预定义盒搜索功能。网络结构如图1所示。
图1 建议的SUAV监控实时检测器框架
网络可分为四个部分：（1）输入层、（2）特征提取和融合模块、（3）检测模块、（4）输出层（损耗层）。对于每个检测，操作过程分为四个步骤。首先，使用批处理规范化（BN）[33]和随机丢弃模型[15]对输入图像进行特征提取，从而避免梯度扩散，使网络更深入。其次，通过密集的横向连接将三组不同大小的要素映射合并为三个比例。这三种不同的细粒度融合功能用于提高小目标检测灵敏度。第三，采用基于密集排列预定义框的单级多尺度检测方法，实现快速检测。第四，我们使用具有卷积层的独立流路径同时预测损耗标签和回归位置偏移。在训练阶段，用损耗层和回发计算损耗函数来训练模型。

B.通过密集横向连接的多比例要素图融合

在深度神经网络中，由于感知域较小，较浅的层次可以提取一些局部特征和上下文信息，而较深的层次，较大的感知域可以学习更抽象的语义信息。与Faster-RCNN中一样，只使用最后一层特征层提取的语义特征进行检测;因此，成像面积较大的目标可以获得较好的测试结果。但是，这些更深层次的特征对目标的大小、位置和方向不太敏感，导致对小目标的检测性能较差。而输入图像的大小为512×512，以两个像素的步长进行4次pooling，使得最后一张feature map的大小非常小，以至于提取的feature对小物体不敏感。
在这里插入图片描述

图2为各训练样本中目标边界框大小的分布热图。目标的大小是相对固定，主要集中在W∈[15,32]和H∈[8,18]的范围内。也有一些目标在W∈[33,46]和H∈[19,29]的范围内，但数量相对较小。由于我们的数据集中大多数目标尺寸较小，仅使用更深层次的特征无法准确预测小目标的空间位置。
为了提高对小目标的灵敏度，我们在检测阶段采用了基于横向连接的多尺度特征融合检测算法，将上下文特征和语义特征充分结合，如图3所示。
在这里插入图片描述

在垂直连接特征提取网络中，我们提取了像素分辨率为(32×32)、(16×16)、(8×8)的后三个最深残差块Res-4、Res-5、Res-6的feature map输出，即Feature1、Feature2、Feature3:
这三种分辨率大小被用作合并特征图的尺度基准。采用大小为8×8的Feature1特征图作为第一比例尺进行预测:
ScaleI= Feature1。(1)
将8×8的feature map通过双线性插值向上采样，使其达到与feature相同的大小。然后，将这两部分feature map进行横向连接。对于逐通道连接，通过1×1卷积层将两组feature map的尺寸调整到256。像素级融合对较浅的特征更敏感;因此，我们对浅层的特征采用element-wise加法，对深层的特征向上采样:
在这里插入图片描述
各权重系数的值分别设置为1。另外，为了验证高级语义特征对检测性能的影响，我们对scaleiii应用附加旁路，将上采样的scaleiii与ScaleiIto Scaleii连接起来(如图3虚线所示)。图中的加号表示元素的加法，上采样是通过双线性插值实现的。
该操作通常启用具有细粒度特性的高级语义特性，反映高级语义特性和低级细节特性之间的关系。第四节给出了拓展实验(对比实验)的分析结果，验证了该方法在无人机目标检测中的优越性。
Faster R-CN和Yolo v3使用不同分辨率的feature maps来识别不同大小的物体(例如Faster R-CNN中的特征金字塔网络)。与传统的基线探测器不同，该方法是针对红外SUAV目标的专用探测器，不需要对大尺度目标进行检测。然而，在红外探测的应用中，我们认为一些小尺寸的特征图(如7×7)对小目标的检测影响不大。这是因为，小尺寸的feature map会导致稀疏的预定义盒(Faster R-CNN中的锚盒)铺装。当预定义的框比较小的时候，这种稀疏的布局会导致输入图像上有很大的未覆盖区域(例如512×512)，会造成假阴性。为了解决这个问题，低分辨率的特征图被上采样和归一化到一个大的尺寸(32×32)为预先定义的盒子铺设密集。所有的多尺度feature map经过垂直连接后，通过一个直线单元(ReLU)馈送到下一层。

C.基于高密度铺设的预设箱的单阶段预测

对于经典的two-stage方法，如Faster-RCNN[21]，虽然区域建议网络(RPN)对提高检测精度有很大的贡献，但进一步提高计算效率一直是瓶颈。在R-CNN演化过程中，RoI提取的性能和运行速度不断提高，但速度仍然远远落后single-stage检测方法(如SSD、YOLO)。
因此，我们在single-stage预测的基础上，结合锚框预测的思想和目标统计分析的结果，设计了一种基于滑动窗口的候选区域搜索结构，如图4所示。
在这里插入图片描述
而不是Faster-RCNN和Yolov3,anchor boxes在图像上以不同的步长,同时我们预测多个候选区域地图上每个像素的融合特性,这意味着我们对大小为512×512的输入图像采用16像素的滑动步长。以每个正方形的中心作为基准点，在每个点上共生成N个预定义的方框。由于所有的融合特性都是相同的更大的分辨率，N个预定义的盒子可以被扩展成密集的ScaleI,ScaleII和ScaleIII。Faster-RCNN和Yolo v3中使用的低分辨率feature map上铺设的锚盒是稀疏的(例如在8×8 feature map上，锚帧的滑动步长为64)，这些稀疏的锚帧通常无法确定小目标。我们的方法将预定义的矩形均匀地放置在不同尺度的特征图上，这样低分辨率的深度特征图对小目标的检测更加敏感。
这N个预定义盒的维数与训练数据中目标几何特征的统计结果相对应，从而使预测盒与ground truth达到最佳匹配(将在Section IV-A and Section IV-B详细讨论)。对于根据这些规则生成的预测盒，我们使用带有两个卷积层的两条流路径，同时预测损失标签并返回位置。选取得分最高的K个结果作为输出。最后，对三个尺度预测结果进行非极大值抑制处理，得到目标的位置和置信度。该阶段采用几个合适的预定义候选盒代替double-stage探测器第一阶段的偏置微调;例如，被提议的位置回归的额外中间层被移除(Faster R-CNN中有两个卷积层)。特别地，作为一个SUAV专用的探测器，利用目标的先验信息(几何特征)进行特征图选择和铺装预定义框。实验结果表明，由于预先定义的盒子中密集地铺有较高的IoU，我们的方法在精度上与two-stage检测器使用一次位置回归，但速度有很大提高。

D .损失函数

损失函数由两部分组成:分类损失和定位损失。
在这里插入图片描述

其中，x和y表示目标的中心坐标，w和h表示目标水平边界框的宽度和高度;p表示目标的置信度。分类损失由对数似然损失函数的0 - 1布尔变量定义:
在这里插入图片描述
式中，pi表示第i−个参考区域被划分为目标的概率，yi表示目标是否存在于第i−个参考区域内，取0或1。

其中L1(x)表示L1−范数上的平滑损失，候选区域和真区域的参数化坐标定义如下:

其中tx i和ty i表示相对于参考区域的尺度不变偏移量;tw i和th i分别表示对数空间相对于参考区域的宽度和高度;∗i和ty∗i表示相对于地面真值的比例不变偏移量;tw∗i和th∗i表示对数空间中的宽度和高度相对于地真值;x,y, w, h分别表示候选区域的坐标(x,y)，宽度w，高度h;xa和x∗表示参考区域和地面真相的水平轴。纵坐标、宽度和高度在同一模式中定义。

三、数据集分析和加权增强方法

A.数据集

在这项工作中使用的数据集包含3800幅人工注释的SUAV目标长波红外图像。每个训练样本包含1-4个SUAV目标，所有训练集包含5138个目标。
该数据集包含各种飞行场景，如悬停姿态、慢巡航和高速机动。目标到红外探测器的距离范围从20米到800米，探头俯仰角度在±45°范围内变化。实验场景包括各种各样的背景(例如，建筑物和塔、山脉、云和天空)，以及不同的温度和天气条件。温度在12摄氏度到32摄氏度之间。数据集的一些典型图像及相应的位置标注如图5所示。
在这里插入图片描述
为了优化网络参数，我们分析了标记数据集的几何特征。目标的几何分布如图6所示。H为目标的长边，W为短边，W/H为高宽比。高宽比反映了无人机目标的飞行姿态和形状特征，不随探测距离的变化而变化。图6(a)显示目标在图像中是平面的。当飞行迅速加速或减速时，目标从水平姿态变为倾斜姿态，目标边界框的纵横比逐渐减小。由于高宽比的最小值是1.0，所以在机动过程中SUAV的倾斜角度不超过±45°。图6(b)为长边W的分布，主要表示目标与探测器之间的距离。目标宽度范围从20到40像素。
本工作中使用的验证集包含两个部分。V alidation Set 1 (VS-1)是一个监控视频，分为五个不同的场景:建筑、铁塔、林地、山脉和云天。监控视频总长度为218s，共5450帧，每帧只有一个目标。Validation Set 2 (VS-2)是在相同的5个不同场景中手工标注的图像集，包含1200个标记帧。
在这里插入图片描述

B.加权扩增法

含有红外目标的训练图像难以大量获取;因此,本研究采用了数据增强的方法来增强检测器的泛化性。如图7所示，训练集中目标的几何特征分布不均匀。针对训练集的数据平衡对基于网络的模型影响较大的问题，提出了一种加权增强方法。
对于每个目标，我们计算在训练样本中的权重。对于第i - th原始样本，Wi定义为
在这里插入图片描述
其中W同宽的样本数为训练集中第i−个样本，nw/h i表示与第i−个样本具有相似长宽比W/ h的样本数(在0.1以内)。Lwand Lw/ H分别表示训练集中W和W/H的张度，N表示原始训练集中的样本总数，原始样本与放大样本的数量比为1:K。
一般来说，Wi对应不同的飞行姿态和与探测器的距离有不同的反应，表现为高宽比和目标的大小。对足够的训练样本进行少量的增强，对不足的训练样本进行大量的增强。我们为每个训练采样随机执行以下转换:随机调整大小，随机旋转，横向翻转，和灰色转换。增大程度与Wi成正比。每次变换都在较小的变化范围内进行，以保证坐标变换后的目标边界盒仍保持原有的统计特征。

四、实验

在本节中，我们将展示实验结果，以证明所提方法的有效性。首先，我们进行拓展研究来验证所提出的方法，并优化检测模型。其次，我们利用目标的几何分析、数据平衡和数据扩充对网络进行优化。最后,对检测结果进行了分析，并与现有的检测方法进行了比较。

A.框架优化

1)多尺度特征图融合的对比研究
为了探讨不同尺度融合特征图对目标检测的影响，对不同尺度融合特征图的配置进行了烧蚀研究。我们采用平均精度(AP)来评价该方法的性能。AP为精确召回曲线下的面积，反映了其相对于召回量变化的变化情况，反映了整体的性能。准确率是真阳性(TP)与检测目标总数的比率，而召回率是真阳性(TPs)与地面真实目标总数的比率。精度和召回率分别表示为:
在这里插入图片描述
其中FP和FN分别表示假阳性和假阴性的数量。
在实验中，一致设置边界框为5。实验结果见表1。
首先，为了验证密集横向连接方法的有效性，我们将对原始特征图的检测作为控制(设置2和3)，使用融合特征图的模型(设置4和设置5)的AP值分别增加了1.5和4.3。
第二，设置1、4、5、6、7、8、9展示不同数量融合特征图的检测结果。设置9采用三幅尺度feature map进行检测，效果最好。大特征图(ScaleIII, ScaleII)的组合在保持特征图个数不变的情况下，取得了较好的检测效果。这证明了具有上下文信息的高分辨率特征图更有利于较小的目标。

2)预定义框的参数选择
滑动预定义盒与标签的匹配程度在目标检测中起着重要作用;因此，我们利用SUAV目标的几何分析结果来准确选择锚盒的尺寸。IoU反映匹配度，定义为：
在这里插入图片描述
其中si和s∗i分别表示锚框和目标的ground truth。我们使用K-means聚类方法选择预定义的盒子。距离度量计算如下:

不同K值设置下最接近聚类中心的所有ground truth的平均IoU值如表2所示：

随着聚类层K的增加，平均IoU增加，但增长率稳步下降。随着锚框数量的增加，模型的复杂性和执行时间也会增加。因此，我们选择了5个锚点来达到检测精度和效率的平衡。在双级检测器中广泛使用的RPN[21]方法中，最小的锚框比训练集中的SUAV目标大得多，距离最近的锚框的平均IoU为0.62。由于9个预先设置的大尺寸锚框中的大多数都不可用，因此计算负载增加了，但没有任何好处。与RPN相比，当IoU提高到0.75时，本研究使用的预定义框与目标轮廓的匹配度更高，在只有5个候选框的情况下，效率更高。

B.数据平衡和扩充

1)原始数据的训练和测试
优化网络参数后，我们使用原始数据对模型进行训练，并作为后续对比实验的基线。
我们每批处理16张图像。如果先验盒与其地标签框的匹配度大于0.7，我们将这些先验盒标记为正样本。阳性样本总数不超过64个。在IoU小于0.2的样本中随机选取负样本。正样本和负样本之和是128。我们使用随机梯度下降的方法来优化训练。初始学习率设置为0.001，迭代次数设置为46,000次。经过22000次迭代，学习率降低了10倍。
在测试阶段，将阈值设置为0.6，对检测结果进行过滤。然后进行非最大抑制处理，滤除IoU值大于20%的结果。我们在两个验证集上测试了基线模型。在VS-1上的测试结果表明，正确检测到4663帧(置信水平> 60%)，检测率为82.95%。对VS-2的检验结果表明，当输出置信阈值设置为0.6时，AP值达到49.8，假阴性达到167。
2)加权增强
通过对基线检测结果的分析，我们发现在大型机动飞行中SUAVs很难被检测到。漏检的原因有三:(1)高速机动导致动态模糊问题，导致细节偏少;(2)大部分漏检目标集中在目标尺寸分布热图的冷区，即:在美国，与这种飞行态度相对应的训练样本是不够的。(3)在训练样本中，与缺失目标相同大小的目标较少。在聚类过程中，减少样本数量的影响，最终导致不合理的锚框。为了解决样本不平衡的问题，对样本原始数据进行加权增强。图8显示了经过数据平衡后的SUA V目标的几何分布。与图6所示的原始数据相比，训练集中目标几何特征的统计直方图更加平滑。也就是说，在训练集中，不同飞行姿态下的SUAV目标数量更加统一。
在这里插入图片描述
为了在各种飞行姿态下使预定义的盒大小与无人机目标轮廓有更好的重叠，将设定预定义盒大小的规则从训练样本中目标尺寸数量的聚类变为目标尺寸类别的聚类。调整后锚盒的分布更加离散，如图9所示。
为了验证基于加权增强的数据平衡方法的有效性，寻找合适的数据增强比例，探究预定义box对性能的影响，我们对VS-2进行了消融研究。
首先，将加权增强法与传统的直接增强法进行了比较。表3给出了本文方法和传统直接增强方法在不同增强比下的AP值和假阴性值。在不同的增强比下，加权增强法的效果如表3所示。比较AP值/假阴性之间的直接增加和加权增加。表4。比较不同的增强比和预定义的盒。优于传统股，AP值上涨3.42%。当输出置信阈值为0.6时，我们的方法减少了15.76%的假阴性。由于传统的直接增强方法只是将数据翻倍，对每个原始训练样本的统计分布没有显著影响，放大后的样本仍然不平衡。
其次，利用调整后的预定义框对不同比例的增广数据进行网络再训练。实验结果见表4。一方面1:3是更合适的增强比，较大的增强比会导致性能下降;因此，该结论与表4的结果一致。另一方面，调整后的预定义盒与原预定义盒相比，AP值平均增加了1.78，假阴性减少了17.12%。
基于这种优化配置，我们在VS-1上对模型进行了评估。最终结果表明，在4982帧中检测到目标，检测率达到91.83%，比未进行数据增强时提高5.88%。增加数据后的输出置信度结果如图10(b)所示。与Fig.10(a)中没有均衡数据的模型相比，全局平均置信度增加了3.6%，假阴性(最高置信度低于阈值)率下降了27%。
图11为所提方法在VS-1中对多个连续帧的测试结果。红色的叉表示目标的中心坐标，绿色的包围框显示的输出位置。这些测试结果显示成功地检测出大机动条件下的小型SUA V目标。根据这些结论，后续实验将采用相同的设置和增强训练集。

C.比较与评价

为了评估所提出的方法，我们用相同的增强训练集训练了最先进的检测器，并在VS-2上测试了所有这些方法。IoU的门槛分别设置为50%和70%。这些方法的准确性和效率是通过AP值和平均每秒帧数(FPS)来衡量的。实验是在配备了NVIDIA Geforce TITAN XP和Intel Core i7-6800K的工作站上实现的。
实验结果如表5所示，显示了所提方法与目前最先进的探测器[21]、[22]、[24]、[25]、[32]、[35]的对比。AP-50和AP-70分别代表重叠阈值为50%和70%时的AP值。检测速度通过FPS和每帧的平均计算时间(毫秒)来评估。表6给出了表5中目标检测方法的AP-50值在验证集VS-2上手动注释不同场景背景的视频剪辑。
在精度方面，该方法接近较快的R-CNN (VGG后端)，略低于Retina-Net-101。但该方法的检测速度可与当前最优单级检测器Y olo v2和Yolov3相媲美，且速度快于其他两种检测器。较快的R-CNN的检测精度并不突出，因为滑动锚框的定义相对简单，没有纳入训练样本的统计特征。对于更快的R-CNN ， IoU的地面真相盒是如此小，它限制了性能。采用ResNet-101后端的retna-net具有良好的检测精度，特别是在重叠阈值为50%时，但检测速度低于采用本文方法的检测速度。SSD方法作为一种优秀的单级检测器，在计算效率上有优势，但对小目标的检测精度存在劣势，因为它使用较小的特征图来实现检测。Yolov3是目前最好的单级检测器，实现更快的检测速度。但是，Yolov3的检测精度低于我们的方法。与Yolov3相比，我们的方法使用了深度特征提取网络，在检测阶段使用了更大尺度的feature map和合理的多尺度feature fusion操作具体地说，不同于原来的尺寸，低分辨率的特性，对于预先定义的盒子的密集铺装，它的尺寸被标准化为32×32。预设盒子的数量(32×32)×3×5 = 15360(3尺度特征图的分辨率的32×32岁5预定义的盒子),超过30.68%(13×13 + 26×26 + 52×52)×3 = 10647(3尺度特征图谱的决议(13×13)(26×26)和(52×2),3组锚箱)锚箱YOLO v3意思。如表5所示，虽然我们的方法的FPS略低于YOLO v3，但是精度得到了很大的提高，特别是AP-70提高了13.47%。
图12为各种算法得到的AP-FPS曲线。横轴表示平均FPS，纵轴表示AP-50和AP-70的值。综上所述，该方法在精度和速度上都取得了令人满意的效果。

五、讨论

对不同比例尺的特征图配置和预定义搜索框
进行了对比研究。与原始feature map相比，采用feature map融合的模型在scaleii和scaleii上的AP值分别提高了3.1%和9.1%。在使用多个融合的feature map时，采用三种尺度的feature map和旁路检测的模型效果最好，AP值达到53.3。对于预定义的滑动框，即使当箱子数量增加时，IOU的增加速度放缓，执行时间也会大大增加。因此，我们为本阶段选择了((14,9)，(17,13)，(19,9)，(24,12)，(27,19))5个box，以平衡检测准确率和效率。与RPN[21]相比，我们的方法使IoU增加了21.0%，候选人数从9人减少到5人。
加权增强方法的实验结果表明，与传统的直接放大方法相比，该方法使放大后的目标几何特征直方图更加平滑，数据分布更加均匀;在1:3的放大倍数下，平均增益为4.79%。VS-1上的实验结果表明，与没有平衡数据的模型相比，全球平均置信度提高了3.6%，假阴性率降低了27%。
为了证明该方法的优越性，我们用相同的增广训练集训练了最先进的基于CNN的检测器，并在VS-2上进行了测试。在检测精度方面，我们的方法在测试集VS-2的两个场景(山脉和云)中获得了最高的AP，其中一个场景(建筑)排名第二，另外两个场景(铁塔和林地)排名第三。我们方法的平均AP接近更快的R-CNN (VGG后端)和retna - net101的双级检测器，但优于Yolo v3、Yolo v2和SSD[22]的单级检测器。在执行时间上，我们的方法每次检测达到48 ms，远远快于所有的双级检测器和单级检测器SSD，达到Yolo v3的水平。总体而言，该方法在精度和速度上都达到了较好的平衡，且两者都达到了较高的水平。
所提出的方法还有一些可以改进的地方。首先，当SUAV目标在复杂背景下悬停时，可能会出现虚警，这限制了性能的进一步提高。其次，标注位置和类别的红外SUAV数据是劳动密集型和难以获得的。因此，除了数据放大之外，还需要无监督学习和迁移学习来进一步提高性能。

总结

在本研究中，我们探索了一种新的无人驾驶飞机监控系统，该系统使用了一种新的红外传感器和一种基于深度学习的实时探测器。针对小尺度红外目标检测精度不高的问题，提出了一种基于密集横向连接的多尺度特征地图融合方法。为了满足实时性的要求，我们采用了基于密集铺设预定义框的one-stage预测，并在训练阶段结合目标几何特征改进了预定义框滑动的选择策略。具体来说，我们探索了数据量和比例性对SUAV目标检测器小样本训练的影响，并提出了一种加权增强方法来实现数据平衡。与传统的放大方法相比，该方法使数据分布更加均匀，提高了模型的鲁棒性。
综上所述，本文设计了一种基于深度学习的用于保护高价值目标的红外识别系统。在建立了一套完整的训练和测试数据集的基础上，详细研究了实时SUAV检测器的设计和训练，成功地改进了SUAV监控系统。