A Survey of the Four Pillars for Small Object Detection,2022

原文地址:A Survey of the Four Pillars for Small Object Detection: Multiscale Representation, Contextual Information, Super-Resolution, and Region Proposal | IEEE Journals & Magazine | IEEE Xplore

引言

目标检测包括两个子任务:分类和定位,这表明不仅需要对所有的目标实例进行准确地定位,而且还应该准确识别其类别。

在深度学习方法出现之前,目标检测任务已经被研究了几十年。研究者们提出了不同的方法来提取手工特征,例如SIFT,方向梯度直方图(HOG),SPM,DPM,和选择搜索。例如,HOG描述子可以通过计算局部梯度信息快速提取线性特征。然而对于大规模数据集例如MS COCO,手工设计的特征无法捕获多个层次的表示;因此,这些传统手工提取方法由于无法表示数据的语义,对类内变化的鲁棒性较差。

为了解决传统手工提取特征的缺点,基于深度学习的方法被提出以自动学习特征,虽然这些方法可以在通用目标检测表现出强大的检测性能,然而作为目标检测的一个子类,小目标检测被严重忽视。与通用目标检测的快速发展不同,小目标检测未能得到较好解决。

1. 定义了名为DOR(degrade of reduction)的项,以说明大目标与小目标检测的性能差距大小

2. 挑战:首先,小目标覆盖的像素较少,用于检测的特征不足,特征表示能力较弱,通用目标检测器在区域建议阶段较大的锚框尺寸导致小目标收到较少的关注甚至被忽略。其次,由于目标尺寸较小,物体可能出现在输入图像的任意位置,如角落或者其他物体的重叠区域。除此之外,背景中的噪声杂波也很难将小目标区分开来并准确定位其边界。第三,AP和mAP可能并不适合评估小目标检测的性能,因为即使图像中的边界框发生微小的偏移,也会导致IoU值较大的差异。需要为小目标检测量身定制一种新的评价指标。第四,针对小目标检测的权威数据集较少。如何在简单数据集上得到的结果外推到更复杂的场景中并不明显。

3. 小目标检测的四大支柱:多尺度表示和上下文信息属于Neck组件,区域建议主要与AnchorHead有关,超分辨率是在基线检测器的基础上增加了两个分支网络,即生成器和判别器网络。

        多尺度表示:一方面,目标定位需要浅层的细节信息。另一方面,深层的语义信息为物体分类提供了较大帮助。由于小目标的微小尺寸和低分辨率,位置细节往往在高层特征图中逐渐丢失,而大多数通用检测器仅使用最后一层的输出进行检测任务,虽然包含丰富的语义信息但是缺乏细节信息。多尺度表示是一种将低层特征图中细节位置信息和高层中丰富的语义信息想结合的策略。

        上下文信息:利用现实世界中目标与其共存环境之间的关系,上下文信息是提高小目标检测精度的另一种新颖的方法。中、大目标在通用检测器中能够提供足够的ROI特征。然而由于从小目标中提取的ROI特征太少,因此需要提取更多额外的上下文信息作为原始ROI特征的补充。

        超分辨率:精细的细节对于目标实例定位至关重要,超分辨率技术试图将原始低分辨率的图像恢复或重建到更高的分辨率,这意味着可以获得更多的小目标细节。例如,GAN的核心思想是生成网络和鉴别网络。在对抗过程中,生成器生成的伪图像和鉴别器区分真伪图像的能力在不断提高。

        区域建议:旨在为小目标设计更合适的锚框。当前主流检测器的锚框主要针对通用目标,表明通用目标中使用的锚框大小、形状和数量不能很好的匹配小目标。此外,将通用目标的锚参数直接用于小目标,额外的噪声将导致巨大的计算成本并降低检测精度。

小目标检测数据集

主要有用于交通道路场景、通用小目标和单类目标。

Lost and Found:第一个用于检测道路上小型障碍物的丢失货物数据集。

STS:瑞典道路交通标志。

Tsinghua-Tecent 100k:交通标志数据集。

GTSDB:德国交通标志检测基准。

CURE-TSD:由真实世界数据和合成虚拟数据组成。

Small Object Detection:从MS COCO和场景理解数据库中提取了纯净的十类小目标,根据不同类别设置不同的阈值,避免了常用0.5IoU值对小目标召回率较低的问题。

CURE-OR:包含玩具、个人物品、办公物品、家庭用品、运动/娱乐用品、健康/个人护理用品六大类。涵盖多种分辨率图像。

WIDER FACE:主要针对不同大小的人脸。

DeepScores:专注于书面音乐的界面,包含的是音乐乐谱和符号。

小目标检测网络

1. 多尺度表示

        弱的小目标特征表示是导致检测性能不佳的主要原因。经过CNN和池化层的反复下采样操作后,最终的特征图中存在较少的小目标特征。而且,随着神经网络层数的增加,固有的层次结构会产生不同空间分辨率的特征图。具体来说,虽然更深的层代表更大的感受野,更强的语义,对变形、重叠和光照变化具有更高的鲁棒性,但特征图的分辨率变得更低,丢失了更多的细节信息。相比之下,浅层的感受野较小,分辨率较高,但缺乏语义信息。

        一些流行的检测器,如R-CNN、Fast R-CNN、Faster R-CNN和YOLO,只使用最后一层的特征图去定位目标和预测置信分数。SSD引入了金字塔分层结构,自底而上的对特征图进行融合。

        Inception模块的核心思想就是将不同的卷积层通过并联的方式结合在一起,经过不同卷积层处理的结果矩阵在深度这个维度拼接起来,形成一个更深的矩阵。Inception模块可以反复叠堆形成更大的网络,它可以对网络的深度和宽度进行高效的扩充,在提升深度学习网络准确率的同时防止过拟合现象的发生。Inception模块的优点是可以对尺寸较大的矩阵先进行降维处理的同时,在不同尺寸上对视觉信息进行聚合,方便从不同尺度对特征进行提取。

        许多多尺度表示方法在提高检测性能的同时也增加了计算负担。此外,冗余信息融合设计可能导致背景噪声,从而导致性能下降。

2. 上下文信息

        由于小物体只占图像的一小部分,直接从细粒度的局部区域中获取的信息受到了极大的限制。通用目标检测器通常忽略了这些局部区域之外的许多上下文特征。众所周知,每个目标总是存在于特定的环境中或与其他目标共存。随后,一些基于上下文信息的检测方法被提出,以利用小目标与其他目标或背景之间的关系。Oliva和Torralba的研究表明,小目标周围区域可以提供有用的上下文信息来帮助检测目标。

        Augmented R-CNN可以被认为是第一个专注于小目标检测的检测器。在这项工作中,提出了一种新的RPN来编码小目标建议周围的上下文信息。

        与多尺度类似,上下文信息也是为了给最终的检测网络提供更多的信息。不同的是,上下文信息主要是为了获取ROI区域周围的信息,通过学习目标与周围信息的关系来提高目标分类。因此,冗余的上下文信息也会造成信息噪声。

3. 超分

        超分方法旨在从相应的低分辨率特征中恢复高分辨率。高分辨率图像提供更多关于原始场景的细腻细节,可以应用到小目标检测中。

        Perceptual GAN首先利用GAN进行小目标检测任务。但是由于其生成的多分辨率图像不够清晰,在Finding tiny faces in the wild with generative adversarial network引入了一个细化模块进行小人脸细节的恢复。

        SOD-MTGAN:提出了一种新的多任务的生成对抗网络。生成器生成超分辨率图像,引入多任务判别网络,同时区分真伪高分辨率图像、预测目标类别和细化边界框。此外,分类和回归损失反向传播进一步引导生成网络生成更易分类和定位的超分辨率图像。

        基于GAN的方法可以有效地增强图像地细节信息,特别是在超分辨率应用中。不需要设计特定的框架,可以适用于任何一种生成网络。然而有两个棘手的问题:一是GAN难以训练,这意味着很难在生成器与判别器之间取得很好的平衡;二是当训练过程中生成器对样本产生有限的奖励而学习过程停止时,容易出现模型崩溃现象,导致最终的检测误差增大。

4. 区域建议

        在深度学习技术出现之前,区域建议性能最好的是选择性搜索算法。然而该方法的计算效率受到很大限制。Faster R-CNN最先引入RPN网络来识别ROI,然后提出R-FCN生成kxkx(C+1)个特征图,每个图负责每个类别的检测。然而,由于锚点尺寸较大,对于小目标检测仍然难以准确定位。

        基于FastMask,AttentionMask被提出为小目标生成定制的区域建议。在基础网络的早期阶段,在特征尺度空间中增加了一个额外的更大尺度( S8 )。特别地,为了减少采样窗口的数量,采用特定尺度的对象性注意机制( SOAM )在每个不同尺度的特征图上选择最有希望的窗口。虽然所有尺度都根据其注意力值进行联合合理化,以找到采样窗口的最佳位置,但该策略仅优先考虑最有希望的窗口进行采样和处理,从而节省了内存和GPU资源,用于增加小目标检测的尺度( S8 )。更精确的锚框位置通常具有较低的置信度,但它们更容易被NMS的后处理拒绝。因此,我们设计了一个平滑的NMS ( SNMS ) [ 95 ]来利用这些锚框,并采用IoU预测来提供更多的分类证据。此外,为了避免遗漏位于锚框附近缝隙中的小物体,对输入图像的若干像素进行4个方向的循环移位。

        由于RPN中的部分参数是由先验知识决定的,故其训练模型往往存在欠拟合问题。通过增加参数而提出的增强RPN(SRPN)。引入了粒子群优化和细菌觅食优化来寻找最优参数值;然后可以获得高质量的检测方案。 此外还引入了包含小目标的过采样图像和小目标增强,使模型更专注于小目标。

        在神经网络中处理背景区域需要花费大量的时间和内存。为了取得计算速度和精度的平衡,Cascade mask generation framework for fast small object detection提出了一种级联掩膜生成框架。首先对原始图像进行多尺度缩放,然后每个尺度通过受RoI卷积启发的掩码生成模块(MGM)产生区域建议和掩码。最后将每个尺度的特征图进行级联,用于ROI池化和后检测。

        一个设计良好的区域建议策略可以利用有限的锚大小和锚数量,减少生成感兴趣区域的计算成本,并有效地检测小目标。

讨论

有待解决的开放性问题:

1. 新的小目标检测指标。事实上,目前广泛使用的AP度量存在几个缺陷。首先,AP值是精度-召回率( RP )曲线下的面积。这不能从RP曲线上反映出趋势,说明不同的RP曲线,无论是低召回高精度还是高召回低精度都能得到相同的AP。其次,无法从AP获取边界框检测的详细紧密度等级信息。然而,边界框的真实紧密度水平对于小目标检测至关重要,因为其对定位精确度敏感。一种新的小目标检测性能指标有望保证较高的定位精度。因此,预测框中心点与真实框中心点的像素距离可以作为小目标检测的一个新的评价指标。

2. 弱监督目标检测。小目标数据集仅包含少量场景和类别,使用全监督学习方法很难为小目标训练通用网络。因此,一些研究采用弱监督学习来检测小目标。

3.小目标数据集。目前还没有像COCO这样的大型小对象数据集。很多研究者采用自己构建的数据集,与其他方法相比,不能表现出明显的交叉评价性能。此外,大多数数据集中于有限的场景,如人脸、行人和交通标志。因此,一个通用的小目标数据集是至关重要的,它被大多数研究者所接受,可以提供一个通用的性能评估。然而,由于小目标的像素有限,构建小对象数据集需要花费大量的时间,并且正确放置用于IOU评估的边界框是困难的。

4.多种方法的结合。上下文信息、多尺度特征图的融合、超分辨率图像以及区域建议阶段较小的锚点尺寸是目前用于提高小目标检测性能的四种不同方法。一般情况下,选择当前领先的通用检测框架作为小目标检测网络的主干,并将其他模块集成到主干中,如上述四个模块。此外,还可以将这些模块进行组合,提高检测效果。

5.视频中的小目标检测。随着视频数据的不断增加,与静态图像相比,视频中的目标检测提供了更多的后续信息和更丰富的信息,相关工作引起了广泛的关注。视频中的目标检测任务要求用边界框定位每一帧的目标。否则,就是一种应用于自动驾驶和监控系统的实时目标检测。尽管目前基于深度学习的方法在静态图像的目标检测上取得了令人印象深刻的性能,但是视频中的目标检测面临着诸多挑战。探索时空关联的方法例如光流、LSTM可能是一个突破点。

6.高精度或实时检测框架。与通用目标检测类似,小目标检测也面临着如何在精度和推理时间之间取得平衡的问题。Faster R - CNN作为经典的区域建议网络,以其较高的检测精度而闻名。然而,与YOLO和SSD相比,它具有更长的推理时间。事实上,检测精度和推理时间的平衡是由不同的应用场景决定的。例如,通过检测银行中的人脸来验证个人身份时,高准确率可能是关键点。从另一个角度来看,当小目标检测技术应用于智能交通、军事监控、无人机等领域时,高检测速度将是首选。因此,需要设计与之相适应的轻量级网络。

        

        

        

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值