【反无人机目标检测】Vision-based Anti-UAV Detection and Tracking

Vision-based Anti-UAV Detection and Tracking
基于视觉的反无人机检测与跟踪

在这里插入图片描述

0.论文摘要

摘要

摘要——无人机在各个领域得到了广泛的应用,其对安全和隐私的侵犯引起了社会的关注。近年来,已经推出了几种用于无人机的检测和跟踪系统,但它们大多基于射频、雷达和其他介质。我们假设计算机视觉领域已经足够成熟,可以检测和跟踪入侵的无人机。因此,我们提出了一个可见光模式数据集,称为大连理工大学反无人机数据集,简称DUT反无人机。它包含一个总共10,000张图像的检测数据集和一个包含20个视频的跟踪数据集,包括短期和长期序列。所有帧和图像都经过精确的手动注释。我们使用这个数据集来训练几种现有的检测算法,并评估算法的性能。还在我们的跟踪数据集上测试了几种跟踪方法。此外,我们提出了一种清晰简单的跟踪算法,结合检测,继承了检测器的高精度。大量的实验表明,融合检测后的跟踪性能有了很大的提高,从而为使用我们的数据集进行无人机跟踪提供了一种新的尝试。

索引术语-反无人机,数据集,检测,跟踪。

代码地址

论文链接

代码链接

1.研究背景

随着工业技术的成熟,无人机逐渐成为主流。它们因体积小、价格低、操作简单[4]而广泛应用于物流[1]、交通[2]、监控[3]等领域。无人机虽然提供了便利,但也带来了一系列问题。不是公共安全,就是个人安全隐私,都很容易受到侵犯。因此,对非法或无意入侵无人机的检测和跟踪至关重要。然而,目前还没有一套完整可靠的反无人机检测跟踪系统。现有的检测和预警技术大多基于雷达[5]、射频(RF)[6]和声学传感器[7],这些技术往往存在成本高、易受噪声影响等局限性。这些限制导致不可靠的结果。因此,这些现有的算法不能被广泛使用。它们的应用范围仅限于机场和其他公共场所。

近年来,基于深度学习的方法在计算机视觉的各个领域[8]、[9]、[10]、[11]、[12]发展迅速,尤其是用于目标检测和跟踪。它们的成熟为建立反无人机高性能跟踪系统提供了可能。许多通用的目标检测模型,如Faster-RCNN [11]和SSD[13],以及常见的跟踪模型,如SiamFC[12]和DiMP[14],目前是可用的。然而,当直接应用于无人机检测和跟踪时,这些通用方法表现不佳。即使检测算法已经逐渐成熟和商业化,但复杂背景下的小目标检测仍然是一个问题,这是反无人机检测旨在解决的问题。无人机经常与噪声和干扰较大的复杂背景融合。遮挡也会发生,并给跟踪任务带来挑战。提出了改进YOLOv3[15],利用低秩和稀疏矩阵分解进行分类[16]等一系列方法来解决前述问题,并取得了良好的效果。

我们工作的主要动机是使用现有的最先进的检测和跟踪方法,在数据层面和方法层面有效地适应和解决反无人机任务。首先,基于深度学习的方法需要大量的训练数据来获得稳健和准确的性能。虽然提出了几个相应的数据集,如AntiUAV[17]和MAV-VID[18],但它们仍然不足以训练高性能模型。因此,为了在数据层面充分利用现有的反无人机任务检测和跟踪方法,并促进该领域的进一步发展,我们提出了一个无人机可见光数据集,包括检测和跟踪子集。我们还使用我们的训练集重新训练了几种检测方法。其次,我们试图在方法层面进一步提高无人机跟踪性能。具体来说,我们提出了一种融合策略来结合检测和跟踪方法。

我们的主要贡献总结如下。

•我们提出了一个名为DUT Anti-UAV的反无人机数据集,其中包含检测和跟踪子集。检测数据集包括训练集(5200个图像)、验证集(2600个图像)和测试集(2200个图像)。跟踪数据集包括20个序列。它将公开发布,用于学术研究。

•我们在我们的数据集上评估最先进的方法,包括14个检测器和8个跟踪器。检测器都使用我们的DUT反无人机检测数据集的训练集进行重新训练。

•针对无人机跟踪任务提出了一种清晰简单的融合算法。该算法将检测集成到跟踪中,同时利用了检测器的高精度。大量的实验表明,对于大多数跟踪器和检测器的组合,跟踪性能都有显著提高。

2.相关工作

A.无人机视图下的目标检测与跟踪

与反无人机任务不同,如今更多的是从无人机的角度讨论目标检测和跟踪。与移动车辆上的摄像头相比,无人机更灵活,因为它易于控制。因此,无人机常用于实现空中目标跟踪。到目前为止,已经构建了几个无人机数据集,例如用于跟踪的UAV123[19],用于检测的DroneSURF[20]和CARPK[21],等等。

此外,已经提出了几种相应的算法[22], [23], [24]来解决这两个任务。无人机检测和跟踪大多是从上面俯瞰的,为此它获得了很大的视野。但也带来了新的挑战,如密度高、物体小、背景复杂等。对于这些属性,Yu等人[22]在跟踪中使用交换目标上下文采样(EOCS)方法[25]考虑上下文信息,以推断目标之间的关系。为解决相机快速运动问题,Li等[23]基于背景特征点,通过射影变换优化相机运动模型。此外,邢等人[24]考虑到在实时跟踪中,无人机上使用的计算资源是有限的。为了补充轻量级网络,他们提出了一个轻量级Transformer层,然后将其集成到金字塔网络中,从而最终构建一个基于CPU的实时跟踪器。

上述算法在现有的无人机跟踪基准上表现良好,也促进了空中目标跟踪的商业化。无人机跟踪越来越受到人们的关注,这使得反无人机跟踪也变得至关重要。

B.反无人机方法论

近年来,来自无人机的安全问题越来越多。尤其是考虑到国家安全,许多国家投入了大量时间和精力,在军事基地研究部署了相当成熟的非基于深度学习的反无人系统。大学和研究机构正在不断优化这些反无人系统。

ADS-ZJU[26]。该系统结合多种监视技术,实现无人机检测、定位、防御。它部署了三个传感器来收集声学信号、视频图像和射频信号。然后将信息发送到中央处理单元以提取用于检测和定位的特征。ADS-ZJU使用短时傅立叶变换来提取接收到的声学信号的频谱特征,并使用定向梯度的直方图来描述图像特征。它还利用无人机射频信号频谱与WiFi信号频谱不同的特点,利用射频信号在不同通信信道上的强度分布来描述射频特征。特征提取后,利用支持向量机(SVM)并行进行音频检测、视频检测和射频检测。之后,在来自视频图像的特定地理区域的约束下,可以通过混合测量(包括DOA和RSS)来估计无人机的位置。采用多种监控技术,互补多种技术的优缺点,使系统具有较高的准确性。同时,它可以进行简单的基于视觉的系统无法做到的射频干扰。但在该系统中,各单元分散,使得系统覆盖面积较大,其高昂的成本也使其不适合民用。

动坐标追踪[27]。本研究提出了一种双轴旋转跟踪机构,使用双轴跟踪装置,即两组步进电机搭配热成像或全彩色摄像机和传感模块来测量无人机的飞行高度。该设备动态计算球坐标中的经度和纬度坐标。热成像和全彩相机可选地在各种天气条件下使用,使系统在不同环境中都很稳定。这种用于反无人机系统的无人机跟踪装置价格低廉,实用性强,然而,其对硬件设施的要求仍然较高。

C.无人机数据集

除了利用其他媒体解决无人机检测问题外,由于近年来计算机视觉的快速发展,人们也开始利用基于深度学习的目标跟踪算法进行无人机跟踪。在计算机视觉任务中,数据集是获得具有较强鲁棒性的模型的重要因素。因此,用于无人机检测和跟踪的数据集一直被提出。下面描述几个相对完整的现有UAV数据集。

MAV-VID[18]。这是Kaggle发布的数据集,其中无人机是唯一检测到的物体。它包含64个视频(总共40,323张图片),其中53个用于训练,11个用于验证。在这个数据集中,无人机的位置相对集中,位置之间的差异大多是水平的。检测到的物体很小,其平均大小为整个图像的0.66%。而在我们的数据集中,无人机的分布是分散的,水平和垂直分布相对更均匀,这使得我们的数据集训练的模型更鲁棒。

无人机与鸟类检测挑战[28]。该数据集是在第16届IEEE高级视频和基于信号的监控(AVSS)国际会议上提出的。顾名思义,该数据集的主要特征是除了无人机之外,图片中还不能忽视许多鸟类。检测器必须成功地区分无人机和鸟类,在不响应鸟类的同时警告无人机。然而,两者的大小、颜色甚至形状都可能相似,这给检测任务带来了挑战。与第一个版本不同的是,这个数据集除了海景之外,还增加了陆地场景,由不同的相机拍摄。该数据集的另一个特点是检测到的物体的大小极小。根据统计分析,检测到的无人机的平均尺寸为34 × 23(图像尺寸的0.1%)。77个视频由近10,000张图像组成。鉴于这种情况,针对该数据集改进算法,成功地降低了高误报率,并在该方法鲁棒性强的情况下进一步推广到其他领域,弥补了该数据集的意义。这种数据集中的场景大多是海边的,视野开阔。与他们不同的是,我们大多在建筑物多的地方收集数据,更适合民用。

Anti-UAV[17]。这是一个标记了可见光和红外双模信息的数据集,由318个完全标记的视频组成。其中160个视频用作训练集,91个用作测试集,其余用作验证集,总共186,494张图像。

将数据集中的无人机分为七个属性,系统地总结了无人机检测任务中可能出现的几种特殊情况。录制的视频包含两种环境,即白天和夜晚。在这两种环境中,两种模态的检测起着不同的作用。从位置分布来看,反无人机的运动范围较广,但大多集中在中心区域,与其他两个数据集和我们的数据集相比方差较小。该数据集侧重于解决基于视觉的检测器在夜间表现不佳的问题,而我们的数据集旨在通过丰富多个方面的多样性来提高模型的鲁棒性,如不同的无人机类型、不同的场景信息、不同的光照条件和不同的天气。

Brian等人[29]收集并整合了上述三个无人机数据集(即MAV-VID[18]、Drone-vs-Bird[28]和Anti-UAV [17]),并使用最先进的四种目标检测(FasterRCNN[11]、YOLOv3[30]、SSD[13]和DETR[31])和三种跟踪方法(SORT[32]、DeepSORT[33]和Tracktor[34])进行了基准性能研究。与这项工作相比,我们提出了一个新的数据集,用于无人机检测和跟踪任务。此外,我们的实验更加充分。我们从五种类型的检测器和三种类型的骨干网络的组合中评估了14种不同版本的检测器。我们还展示了8种不同跟踪器在我们的数据集上的跟踪性能。

反无人机界还有一场挑战赛[35],至今已经举办了两次。这一挑战鼓励了新颖而精确的多尺度物体跟踪方法,极大地促进了这一任务的发展。例如,第二届AntiUAV挑战赛的获胜者SiamSTA[36]提出了一种基于时空注意力的Siamese跟踪器,该跟踪器对生成具有局部邻域的候选建议提出了空间和时间限制。

3.DUT反无人机基准测试

为了帮助无人机检测和跟踪领域的发展,我们提出了一个无人机检测和跟踪数据集,命名为DUT反无人机。它包含检测和跟踪子集。检测数据集被分成三个集合,即训练集、测试集和验证集。跟踪数据集包含20个序列,其中目标是各种无人机。它用于测试无人机跟踪算法的性能。

A.数据集拆分

我们的DUT反无人机数据集包含检测和跟踪子集。检测数据集被分成训练集、测试集和验证集。跟踪数据集包含20个短期和长期序列。所有帧和图像都经过精确的手动注释。图像和物体的详细信息如表I所示。具体来说,检测数据集总共包含10,000幅图像,其中训练集、测试集和验证集分别具有5200、2200和2600幅图像。考虑到一幅图像包含多个目标的情况,检测目标的总数为10,109个,其中训练集、测试集和验证集分别具有5243个、2245个和2621个目标。

在这里插入图片描述

B.数据集特征

与一般的目标检测和跟踪数据集(例如,COCO[37]、ILSVRC[38]、LaSOT [39]、OTB[40])相比,所提出的无人机检测和跟踪数据集最显著的特点是小目标的比例更大。此外,鉴于无人机多在室外飞行,背景通常比较复杂,这增加了无人机检测和跟踪任务的难度。我们从以下几个方面分析了所提出的数据集的特征。

图像分辨率。数据集包含各种分辨率的图像。对于检测数据集,最大图像的高度和宽度为3744和5616,而最小图像的大小为160 × 240;他们之间的巨大差异。跟踪数据集具有1080 × 1920和720 × 1280分辨率的两种类型帧。图像分辨率的各种设置可以使模型适应不同大小的图像,避免过拟合。

目标和背景。为了丰富物体的多样性,防止模型过度拟合,我们选择了超过35种类型的无人机。在图3中可以看到几个示例。数据集中的场景信息也是多样的。鉴于无人机大多在户外飞行,我们数据集的背景室外环境,包括天空、乌云、丛林、高层建筑、居民楼、农田、操场。此外,我们的数据集中还考虑了各种光照条件(如白天、夜晚、黎明和黄昏)和不同的天气(如晴天、阴天和下雪天)。图4中示出了来自检测子集的各种示例。我们数据集中复杂的背景和明显的室外照明变化对于训练鲁棒和高性能的无人机检测模型至关重要。

在这里插入图片描述
图3。我们数据集中不同类型无人机的示例。

在这里插入图片描述
图4。我们的数据集的检测图像和注释的示例。

目标比例。无人机的尺寸往往很小,户外环境广阔。因此,在我们的数据集中,小目标的比例很大。我们根据完整图像计算物体面积比,并绘制比例分布的直方图,分别如表I和图2所示。对于检测数据集,包括训练集、测试集和验证集,平均目标面积比约为0.013,最小目标面积比为1.9 E-06,最大目标占整个图像的0.7。大多数物体都很小。整个图像中的目标大小的比例大约小于0.05。对于跟踪数据集,序列中目标的比例平滑变化。平均物体面积比为0.0031,最大比为0.045,最小比为2.7 E-04。与一般检测和跟踪数据集中的目标相比,小目标更难检测和跟踪,也更容易出现故障,如漏检和跟踪丢失。

在这里插入图片描述

图2.DUT反无人机数据集的纵横比和比例分布。

目标纵横比。表I和图2还示出了物体纵横比。我们数据集中的目标有不同的纵横比,最大值为6.67,最小值为1.0。在一个序列中,相同的物体具有显著的纵横比变化。例如,“video10”中的目标纵横比在1.0和4.33之间变化。大多数目标的纵横比在1.0到3.0之间。

目标位置。图1以散点图的形式描述了目标相对中心位置的位置分布。大多数物体都集中在图像的中心。所有集合中目标运动的范围不同,并且目标的水平和垂直运动分布均匀。对于跟踪数据集,一个序列中的目标的边界框是连续的。根据图1(d),除了图像的中心区域之外,目标还频繁地向图像的右侧和左下方移动。

在这里插入图片描述
图1.DUT反无人机数据集的位置分布。

C.数据集挑战

通过对最后一小节中提出的数据集特征的分析,我们发现无人机检测和跟踪遇到了许多困难和挑战。主要挑战是物体太小、背景复杂或与物体相似、光线变化明显。也容易出现物体模糊、快速运动、相机运动和视野外的情况。图4和图5分别示出了反映上述挑战的检测和跟踪数据集的示例。

在这里插入图片描述

图4。我们的数据集的检测图像和注释的示例。

在这里插入图片描述
图5。我们的数据集的跟踪序列和注释的示例。

4.实验

4.1 A.DUT反无人机数据集上的检测

我们选择了几种最先进的检测方法。我们使用Faster-RCNN[11]、Cascade-RCNN[41]和ATSS[42],它们是两阶段方法,以及YOLOX[43]和SSD[13],这是一阶段方法。两阶段模型通常具有更高的精度,而一阶段模型在速度方面表现更好。下面提供这些算法的描述。

Faster-RCNN[11]。该方法通过解决选择性搜索带来的区域建议的耗时问题,对Fast-RCNN[44]进行了几项改进。提出了区域建议网络(RPN)来代替选择性搜索。这个网络有两个分支,即分类和回归。分类和回归进行两次,因此该方法的精度较高。

Cascade-RCNN[41]。它由一系列检测器组成,这些检测器的交集超过并集(IoU)阈值不断增加。检测器被逐级训练,并且一个检测器的输出是IoU阈值更高的下一个检测器的输入(换句话说,具有更高质量的检测器)。该方法保证了每个检测器的数量,从而减少了过拟合问题。

ATSS[42]。它声称基于锚和无锚检测器之间的本质区别是定义正训练样本和负训练样本的方式。提出了一种可以根据样本选择正负样本的算法目标的统计特征。

YOLO[43]。YOLO系列以其极高的速度和相对较高的精度而闻名。随着物体检测的发展,它可以集成大多数先进的技术,从而实现一轮又一轮的迭代。在YOLOv5达到峰值性能后,YOLOX[43]开始专注于无锚检测器、高级标签分配策略和端到端(无NMS)检测器,这些都是这些年来的重大进步。升级后,与COCO(上下文中名为Common

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

量子-Alex

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值