【论文阅读笔记】VistrongerDet: Stronger Visual Information for Object Detection in VisDroneImages

Abstract

现有的方法尤其难以在无人机捕获的视频和图像中准确检测目标。在工作中,我们仔细分析了VisDrone DET 2021数据集的特点,发现检测性能低的主要原因是目标微小、尺度跨度大、分布长尾、相似类混淆。为了减轻由此带来的不利影响,我们提出了一种新的检测器VistrongerDet,它具有更强的视觉信息。我们的框架集成了FPN级,ROI级和头部级增强的新组件。得益于整体的增强,VistrongerDet显著提高了检测性能。VistrongerDet是即插即用的,可用于任何基于fpn的两级检测器。在VisDrone-DET测试开发集上,比Faster R-CNN和Cascade R-CNN平均精度(AP)分别提高1.23分和1.15分。

1. Introduction

配备相机的无人机或通用无人机已经快速部署到广泛的应用中,包括农业、航空摄影、快速交付和监视。因此,对从这些平台收集的视觉数据的自动理解提出了很高的要求,这使得计算机视觉与无人机的关系越来越紧密。目标检测是计算机视觉中最基本、最重要的任务,它对跟踪、活动识别等视觉数据的自动理解等高级视觉任务的性能起着至关重要的制约作用,一直是计算机视觉领域的研究热点。

卷积神经网络(CNN)在计算机视觉领域受到高度重视,因为它比手工制作的特征更具代表性。大量基于卷积神经网络的检测器一个个被提出并在公共数据集上取得了优异的成绩,如MS COCO[24]和PASCAL VOC[13]。虽然基于深度学习的目标检测方法已经取得了很大的进步,但仍然存在小目标、遮挡、泛化等开放性问题需要解决。特别是在无人机(如VisDrone[44]和UAVDT[11])拍摄的视频和图像中,由于物体体积小尺度分布广长尾分布严重航拍造成相似类别难以区分等问题,对物体的准确检测尤为困难。VisDrone DET 2021数据集上的目标检测是一项具有挑战性的视觉任务,其难点如图1所示。在本文中,我们提出了几种有效的策略来解决VisDrone DET 2021中的难题。在这个评估任务中,我们将我们的策略集成到高性能检测器中并取得了良好的排名。

在VisDrone DET任务中,小于32像素的微小目标物体的大尺度分布是必须面对的两个问题。Lin等人提出的金字塔特征网络(pyramid feature network, FPN)[22]可以获得更令人信服的语义表示,被广泛应用于目标检测。然而,基于FPN的一般检测器对VisDrone DET数据集中的微小目标检测性能较差,且FPN特征对微小目标甚至底层目标都不敏感。此外,VisDrone数据集中对象的大尺度分布导致FPN各层实例的不平衡,也影响了模型的性能。受[15]的启发,我们采用有效的融合因子来避免FPN各层实例不平衡所带来的影响。同时,为了使目标的FPN特征更具表现力,我们在模型训练的每一层都引入了掩码监督。我们将这两种策略称为FPN级别增强。

在FPN结构中,每个ROI的特征只需要对一个层次的特征进行池化就可以得到。然而,两个大小相近的roi可能被分配到不同的层次。这种池化算法可能会产生次优检测,因为层之间,特别是相邻层之间存在很强的相关性。因此,我们提出了一个相邻感兴趣区域融合(ARF)模块,通过参数化感兴趣区域池化过程来融合相邻层次的感兴趣区域特征。我们将这种处理称为ROI级别增强。

第三个需要解决的问题是VisDrone DET数据集中的长尾分布。许多求解长尾分布问题的方法的思想都来源于长尾分类。Buda M等人在训练[2]期间使用更多的尾类样本来平衡长尾类别和头部类别之间的差异。Cui Y等人通过在训练b[7]时为尾部类别分配大权重来解决这个问题。然而,这些方法只能解决一些问题,并且可能导致过拟合,甚至造成优化困难。我们利用双采样器和头部网络(DSHNet)[39]分别处理头部和尾部类。此外,VisDrone数据集中还存在类似的类别,例如行人和人,这对于航拍图像来说很难区分。我们巧妙地在分类头中增加了两个监督:多标签预测和分组softmax,从而间接避免了对原始检测网络结构的修改。我们将这些策略称为HEAD级别增强。

针对这些挑战和VisDrone数据集的特点,我们提出了一种具有更强视觉信息的新型检测器VistrongerDet。我们的框架集成了FPN级,ROI级和头部级增强的新组件。

综上所述,本文的主要贡献如下:

1)我们提出了一种新的检测器(VistrongerDet),分别从FPN水平、ROI水平和头部水平进行了增强。

2)我们的改进方法是可插拔的,可用于任何基于fpn的两级检测器,如[32,4,30,29,16]。

3)与VisDrone挑战赛提供的基准相比,我们取得了显著的改进。最后,我们的模型在VisDrone-DET2021挑战[9]中排名第五。

2. Related Work

本节针对本文提出的研究工作,对相关工作进行概述,主要包括以下三个方面:一般目标检测无人机图像中的目标检测长尾目标检测

一般目标检测。

目前流行的目标检测框架主要分为无锚点和基于锚点两种。无锚方法主要通过定位和回归关键点来检测目标。CornerNet将对象检测为一对关键点——边界框[18]的左上角和右下角。然后根据距离对角进行分组,得到最终的检测结果。CenterNet在对象的边界框中心用单个表示对象,并根据中心点[42]回归到每个对象的相应大小。ExtremeNet检测对象[43]的四个极值点(最上、最左、最下、最右)。

基于锚点的方法可以细分为单阶段检测器和两阶段检测器。SSD[26]和YOLO[31]是常用的单级检测器,主要优点是速度快,但精度不高。RetinaNet提出了一种焦点丢失的方法来解决正样本和负样本以及难样本和易样本[23]的不平衡问题。与单阶段方法相比,两阶段检测器通过区域建议网络(RPN)[32]来预测粗略位置,然后对这些建议进行分类和位置校正预测。Cascade R-CNN采用串级结构对之前的结果进行进一步细化,得到更高质量的检测结果[4]。

无人机图像中的目标检测。

与地面图像相比,无人机图像中的目标检测更具挑战性。在无人机拍摄的图像中存在大量的微小物体,如尺寸小于32像素的物体。Wang等人提出了一个感受野扩展块(RFEB)来增加感受野大小,一个空间细化模块(SRM)来修复图像[37]中多尺度物体的空间细节。DPNet[12]在骨干网络中引入了全局上下文模块(GC)[5]和可变形卷积(DC)[8]。

DroneEye2020[10]在颈部使用递归特征金字塔(RFP),并额外使用可切换的属性卷积(SAC)以获得更好的性能[30]。许多方法[41,19,28]基于裁剪方法生成一组子图像,这可以增加对象的大小并扩大数据集。以上方法只是间接避免了微小物体带来的麻烦,并没有提出具体的算法或结构。

长尾目标检测。

另一个严峻的挑战是无人机数据集的长尾分布问题。VisDrone中有几个类别,如汽车、行人和人的数量占比超过70%,而其他类别的数量很少,如三轮车、雨棚三轮车和公交车重采样[2,3]是一种常用的方法,在训练过程中使用更多的尾类样本来平衡长尾类与头类之间的差异。为尾类分配大权重是训练b[7]中处理长尾类的另一种方法。以上方法虽然可以解决一些问题,但也可能导致过拟合,甚至造成优化困难。Forest R-CNN将细粒度类聚类为更粗的父类,并构建树形结构,通过父类[38]学习子类别之间的关系。Li Y等根据每个类别的数量,将数量相近的类别分成一组,在组[20]中分别进行交叉熵损失监督。这两种方法有助于缓解极端不平衡问题,但会在父类中引入错误或改变原有的softmax结构。

3. Methodology

我们的目标是通过FPN级、ROI级和HEAD级的增强策略来最大限度地提高无人机图像的检测性能,以减轻微小目标、大尺度跨度、长尾分布、相似类混淆等导致的检测性能下降。整个方法框架是基于Cascade R-CNN[4],如图2所示。

处理流程如下:

(1)BACKBONE阶段提取输入图像的特征,生成特征图,为后续阶段奠定基础。

(2)在FPN阶段,从深层到浅层的融合采用了三个不同的因素。此外,FPN每层的掩模头和融合模块使得特征提取更加关注目标区域,特别是微小目标。这些构成了FPN级别的增强。

(3)在ROI阶段,基于前一阶段融合的特征映射进行ROI池化处理。在ROI池中,特别集成了当前ROI层及其相邻层的特征,并利用了ROI的内部空间注意机制。我们将这种策略命名为ROI级别提升。

(4)在HEAD阶段,即我们的HEAD水平提升阶段,我们采取不同的分支分别处理头部类别和尾部类别。

Group-Softmax分类法和Multi-Label分类法特别用于解决相似类别的分类问题。所有组件将在以下部分中详细介绍。

3.1. FPN level enhancement

我们探索了在VisDrone 2021数据集中执行fpn级增强的两种策略。首先,采用[15]融合因子解决目标尺度分布范围大的问题;其次,在训练阶段加入目标区域的掩码,提高对微小目标的检测;

大范围的目标尺度分布是VisDrone数据集的一个棘手问题。表1是VisDrone 2021训练集中目标绝对尺寸的统计数据,其中目标尺寸在12 ~ 4002像素之间,不同尺度下目标尺寸分布不均匀

对象分布的这种特性可能导致FPN的某些层的训练样本比其他层少得多。在原始FPN[22]中,从深层到浅层的所有融合因子都等于1。这样,当梯度反向传播时,FPN各层实例的不平衡会影响网络参数的更新效率。受[15]的启发,我们用不同的融合因子描述了FPN中相邻层的耦合度。采用IOU匹配算法计算每层训练样本个数NPi;然后三种不同的聚变因子a i+1 i由[15]得到:

其中I代表金字塔的层次。因此,我们得到了训练数据集中不同尺度样本分布的融合因子,可以自适应调整不同层特征的融合,更有效地优化网络参数。

VisDrone数据集的图像中存在大量的微小物体。根据MS COCO的分类方法,表1还显示了小、中、大三个级别内的物体尺度数量,其中大多数是尺寸小于32的微小物体。微小的物体经过降采样后会变得更小,很容易从FPN的特征图中消失。为了增强特征映射对微小物体的敏感性,我们在模型训练阶段的每一层上引入了掩码监督。

我们生成热图Y∈[0,1]H×W×C作为标签,用ground-truth边界框标注表示前景和背景。热图Y的边界框中的所有像素设置为1,其余像素设置为0。在mask监督的训练阶段,对于如图3所示的样本图像和检测框,首先通过FPN网络提取特征映射;然后在不改变特征图分辨率的情况下,使用卷积运算将通道数逐渐减少到1。训练目标是像素级的mselloss。前景蒙版监督训练可以使特征提取更加关注目标区域。

此外,每一层的掩码监督可以增强特征映射对微小目标的敏感性,并且5层的掩码分支{M2, M3, M4, M5, M6}学习到了不同于原FPN {P2, P3, P4, P5, P6}的特征。

网络模型通过Mi和Pi分支的融合得到两者都有优势的特征,其中i∈[2,6]。因此,我们设计了一种新的空间注意融合模块(Spatial Attention Fusion, SAF)来自适应地结合这两种特征。SAF的结构如图4所示,SAF训练方式提取的特征会更加关注前景蒙版指导下的微小物体。在实践中,为了减少模型参数的数量,SAF模块利用热图过程的中间结果,如图3所示。

3.2. ROI水平增强

在FPN结构中,通过IOU匹配算法,只会安排一个ground-truth bounding box在某一层次上进行训练。这样,每个ROI的特征都是通过对一个层次上的特征进行池化得到的。然而,从经验上看,不同层次之间存在一定的关系。

PANet通过连接ROI的所有特征级别来增强特征[25],从而利用ROI的最大适应性。最大运算只利用了局部强响应的特征,而忽略了其他位置的特征。AugFPN[16]提出了软ROI选择(Soft ROI Selection, SRS),基于所有金字塔层特征的自适应权重生成最终的ROI特征。两种方法都利用不同层特征之间的相关性来指导当前层roi的特征表达。

实际上,在训练过程中可能会将两个大小相近的roi分配到相邻的层。在这种一对一的训练策略下,上层和底层之间的相关性不强。此外,微小的物体只能出现在FPN的底层,顶层的信息不再具有指导意义。如果网络严格学习各层之间的关系,会降低泛化性能和收敛速度。相反,相邻层特征的相关性是最大的,它将包含更多的周围和详细信息。因此,我们提出了相邻ROI融合。模块通过参数化ROI池过程来融合相邻层次的ROI特征。

具体来说,我们首先为每个ROI汇集来自相邻级别的特征。每个ROI特征Rjn将被增强为三个ROI特征{Rin, Rjn, Rkn},并且Rin和Rkn分别从上面和下面的相应位置若j为FPN中间层。然后我们通过简单地取平均值来平衡三个ROI特征。

其中,i,j, k代表金字塔层次,n代表ROI的id。取索引i、j、k的值为:

为了提高特征敏感性,我们利用当前ROI的上下文信息,采用以下函数来表示当前ROI的特征:

其中Norm(·)表示Layer Normalization (LN) [1], Drop(·)表示Dropout [34], MHA(·)表示Multi-Head Attention[36]。该模块充分利用目标的层间相关性和空间自关注来增强特征表示,提高网络检测性能。

3.3. HEAD level enhancement

在VisDrone数据集中,类分布不平衡也是影响网络性能的一个严重问题。少数类别,如汽车、行人和人占70%以上,而其他类别的样本很少,如三轮车、雨棚三轮车和公共汽车。受[39]的启发,我们利用两个分支分别处理头类和尾类。头类分支使用更多的头类样本进行训练,反之亦然。在推理阶段,将两个分支的检测结果进行合并,实现互补。

此外,在VisDrone数据集中还存在类似的分类,例如行人和人,由于它们有很多相似之处,分类器很难区分。就像人类感知一样,我们的解决方案首先根据物体的轮廓特征判断物体是人而不是车辆;然后根据细节特征来区分是行人还是人,这相对来说更具挑战性。为此,我们探索了多标签分类和组softmax分类来实现我们的想法。

多标记分类。

区分细粒度类别最直接的方法是首先预测父类别,然后根据父类别预测子类别。然而,这种方法会破坏网络的分类结构,导致子类别之间失去相关性,如行人和人,如图5(a)所示。Forest RCNN[38]将细粒度类聚为更粗的父类,并构建树形结构,通过父类学习子类别之间的关系,如图5(b)所示。虽然该方法可以加强相似关系,但父类的预测偏差会影响子类的预测。相反,我们利用一种不同的方法,向分类器添加几个父类,例如,c1代表行人和人的父类,c2代表自行车和摩托车的父类,等等,如图5(c)所示。在训练阶段,我们使用二元交叉熵(BCE)来监督多标签分类。然后在推理阶段移除父类,只采用子类的预测结果。这样既保持了子类之间的相关性从而得到它们的共同特征,又避免了增加从超类到子类的预测误差。

图5。几种形式的分类器。(a)是一种直观的分层预测方法。(b)分为两个分支来预测父类和子类[38]。(c)直接预测所有类别,使用多标签分类。

Group-Softmax分类。

多标签分类帮助分类器学习相似子类别之间的共性,而不是相互排斥。然而,分类器通常很难区分相似的子类别,例如行人和人。根据每个分类的数量,[20]将数量相近的分类分成一组,并在组内单独进行softmax分类。受分组思想的启发,我们提出了一种group-softmax分类方法,将相似的子类别巧妙地分组为一组,并分别执行Group-Softmax分类。多标签分类帮助分类器学习相似子类别之间的共性,而不是相互排斥。然而,分类器通常很难区分相似的子类别,例如行人和人。根据每个分类的数量,[20]将数量相近的分类分成一组,并在组内单独进行softmax分类。受分组思想的启发,我们提出了一种group-softmax分类方法,将相似的子类别巧妙地分组为一组,并分别执行在每组中进行Softmax分类,从而解决相似类的误分类问题。值得注意的是,一个类别的对抗性类别是数据集中所有剩余的类别,如果对所有类别进行softmax计算,分类器不知道哪些类别容易错分类。实际上,group-softmax分类和多标签分类是相反的,它们分别“推”和“拉”子类别之间的特征。因此,这两种分类不能应用于同一个全连接层。因此,我们采用两个完全连接的层,得到两组节点,并分别进行多标签分类和group-softmax分类,如图6所示,这主要是为了更好地提取共享层的特征表示,用于相似类的区分。

总分类损失如下

其中Lm和Lg分别为multi-label和group-softmax对应的目标函数。两个完全连通层的预测用p'和p"表示。g表示目标,权值λ用于两个监督之间的平衡。除非另有说明,否则我们在所有实验中都设置λ = 0.1。通过以上两个头部级增强模块,我们可以很好地对VisDrone数据集中的相似类别进行分类,提高网络模型的性能。

图6。VistrongerDet的头部架构。该图显示了头部类别的分支。尾部分类的分支与之相似。GS分类是指与Group-Softmax分类区分相似的分类。ML cls意味着用多标签分类从其他类别中分类相似的类别。

4. Experiments

我们在VisDrone-DET[44]数据集上证明了我们提出的框架(VistrongerDet)的有效性。

4.1. Datasets

VisDrone-DET[44]是一个具有无人机视角的目标检测数据集。在Visdrone-Det中,训练集中有6471张图像,验证集中有548张图像,测试挑战集中有1580张图像,它们都被标记为11个类别。这个数据集对于目标检测任务来说非常具有挑战性。首先,物体的尺度随飞行高度的变化而变化,大多数物体非常小(小于32像素)。第二,视点不同,导致同一类别的对象之间存在较大差距。第三,对数据集进行细粒度分类标记,将有站立和行走姿势的人标记为行人,其他姿势的人标记为人。

4.2. Implementation details

我们的VistrongerDet在MMdetection[6]工具箱上实现。为了追求更好的平均精度(AP),我们选择了Faster R-CNN[32]和Cascade RCNN[4]以及Feature Pyramid Network (FPN)[22]作为基线检测网络。如果没有特别说明,我们选择ResNet-50[17]作为骨干网。与DSHNet[39]一样,行人、人、车被认为是头类,其他类别被降级为尾类。

忽略地区。

在VisDrone-DET[44]数据集中,有11个类别,包括行人、人、自行车、汽车、面包车、卡车、三轮车、雨棚三轮车、公共汽车、电动机等。我们的目标是预测十大类别。因此,我们忽略了其他,也忽略了区域。具体来说,我们计算训练样本和忽略区域之间的IOU。

那么我们避免训练IOU大于0.5的样本。

训练阶段。

为了节省内存使用和提高输入分辨率,我们将原始训练图像除以2×2并水平翻转所有补丁。输入分辨率为1600×1050,批量大小设置为2,使用8个gpu。一共有12个epoch,初始学习率设为0.02,在第9个epoch和第12个epoch分别下降10倍和100倍。锚点大小设置为4,宽高比设置为(0.5,1.0,2.0)。为了扩展数据集,我们将预训练模型参数加载到MS COCO[24]上。

测试阶段。

为了保持与训练配置的一致性,输入大小设置为3200×2100,不进行裁剪。图像中对象的最大数量设置为500。在VisDrone-test-challenge中,我们还使用测试时间增强(TTA)对测试图像进行随机修改。另外,我们使用加权盒融合(WBF)去融合多个困难模型结果,取代了非最大抑制(NMS)

4.3. Experimental results

在本节中,我们将在VisDroneDET测试开发集上对VistrongerDet进行评估,并与其他方法进行比较。为了体现Vistronger的可扩展性,我们使用了两个具有代表性的检测器作为基准,包括Faster RCNN[32]和Cascade R-CNN[4]。为方便起见,分别用FAS和CAS代替。

表2报告了所有实验结果。在训练阶段,我们使用上述训练策略。令人惊讶的是,我们的基准比委员会提交的结果高得多。在保持相同参数设置的情况下,在基线上加入VistrongerDet方法,AP改善率分别达到1.23%和1.15%。TTA也是常用的目标检测方法,AP的改进率分别达到0.92%和1.02%。

此外,在几乎所有情况下,与基线相比,每个类别的AP都有所提高,如表3所示。这表明VistrongerDet在解决微小物体和长尾分布问题方面发挥了重要作用。例如,我们的VistrongerDet将小型类自行车和人的APs分别提高了约1.15%和0.67%。对于雨棚三轮车和客车等尾部类别,VistrongerDet也有显著提高,分别为1.13%和2.01%。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值