论文阅读 Augmentation for small object detection

Augmentation for small object detection

Abstract

近年来,物体检测取得了令人瞩目的进展。尽管有了这些改进,但小物体和大物体的检测性能之间仍存在显著差距。

我们对MS COCO数据集上的当前最先进模型Mask-RCNN进行了分析。我们发现小物体的ground-truth与预测的锚框之间的重叠远远低于预期的IoU阈值。我们推测这是由两个因素造成的:(1)只有少数图像包含小物体,(2)即使在包含小物体的每个图像中,小物体也没有足够的出现次数。因此,我们提出对那些包含小物体的图像进行过采样,并通过多次复制粘贴小物体来增强每个图像。

我们评估了不同的pasting augmentation strategies,并最终相对于MS COCO上的方法,在instance segmentation上实现了相对改进9.7%,在小物体的object detection上实现了7.1%的相对改进。


1 Introduction

物体检测这一重要问题最近取得了很大的进展。在MS COCO物体检测竞赛中,(AP)已经从2015年的0.373提高到2017年的0.525(在IoU=.50:.05:.95这一主要挑战指标下)。在MS COCO实例分割挑战中,也可以观察到类似的进展。尽管取得了这些改进,现有的解决方案在小物体上表现通常较差。
在这里插入图片描述
在许多downstream任务中,小物体检测非常重要。在高分辨率的汽车场景照片中,检测小物体或远距离物体是确保自动驾驶汽车安全运行的必要条件。许多物体,如交通标志或行人 ,在高分辨率图像上往往几乎看不见。在医学成像中,早期检测肿块和肿瘤对于进行准确的早期诊断至关重要,因为这些元素在大小上可能仅仅是几个像素的大小 。自动工业检测也可以受益于小物体检测 来定位材料表面可见的小缺陷。另一个应用是卫星图像分析,其中需要对车辆、船只和房屋等对象进行有效的注释 。这些对象的分辨率通常在每个像素0.5-5米之间,因此它们在图像中通常只占据几个像素的大小。换句话说,由于在现实世界中部署了更复杂的系统,小物体检测和分割需要更多的关注。因此,我们提出了一种改进小物体检测的新方法。

我们着重研究了基于最先进的物体检测器Mask R-CNN 在MS COCO数据集上的表现。我们注意到该数据集中小物体的两个属性。首先,我们观察到数据集中相对较少的图像包含小物体,这可能会使任何检测模型更多地关注中等和大型物体。其次,小物体所占的面积要小得多,这意味着小物体的位置缺乏多样性。我们推测,当小物体出现在图像的较少探索部分时,这使得物体检测模型很难推广到小物体。

我们通过过采样包含小物体的图像来解决第一个问题。通过在每个包含小物体的图像中多次复制粘贴小物体来解决第二个问题。在粘贴每个物体时,我们确保粘贴的物体不与任何现有物体重叠。这增加了小物体的位置多样性,同时确保这些物体出现在正确的上下文中,如图3所示。每个图像中小物体的数量的增加进一步解决了与少量正匹配锚点的问题。总体而言,与MS COCO上当前最先进的方法Mask R-CNN相比,我们在实例分割中实现了相对改进9.7%,在小物体的物体检测中实现了7.1%的改进。

在这里插入图片描述


2 Related Work

略过


3 Identifying issues with detecting small objects

在本节中,我们首先概述了MS COCO数据集和我们实验中使用的物体检测模型。然后,我们讨论了MS COCO数据集和训练过程中使用的锚框匹配方法存在的问题,这导致了小物体检测的困难。

3.1 MS COCO

我们在MS COCO检测数据集上进行实验。MS COCO 2017检测数据集包含118,287张用于训练的图像,5,000张用于验证,以及40,670张测试图像。这些图像中的80个类别共标注了860,001个边界框和 instance masks,以作为ground-truth 。

在MS COCO检测挑战中,主要的评估指标是平均精度(AP)。一般来说,AP被定义为所有 recall values下true
positives与所有positives的比值的平均值。由于物体需要同时被正确定位和正确分类,只有当预测的掩码或边界框与真实标注的交并比(IoU)大于0.5时,才将正确分类计为positive detection。AP分数在80个类别和10个IoU阈值上进行平均,这些阈值均匀分布在0.5到0.95之间。指标还包括在不同目标尺度上测量的AP。在这项工作中,我们主要关注小物体的AP。

3.2 Mask R-CNN

在我们的实验中,我们使用了Mask R-CNN,使用ResNet-50作为主干网络,并采用了linear scaling规则来设置学习超参数。我们将模型训练36k次迭代,分布在四个GPU上,使用base learning rate 0.01。优化方面,我们使用随机梯度下降(SGD)算法,将momentum设置为0.9,权重衰减系数设置为0.0001。学习率在训练过程中两次进行缩放,分别在24k和32k次迭代后缩小为原来的0.1。

网络的region proposal阶段在我们的研究中特别重要。我们使用特征金字塔网络(FPN)生成目标proposals。它相对于五个尺度(322、642、1282、2562、5122)和三个宽高比(1、0.5、2)预测 object proposals。如果一个锚框与任何ground-truth的交并比(IoU)高于0.7,或者它与ground-truth的IoU最高,则将其标记为正样本。

3.3 Small object detection by Mask R-CNN on MS COCO

在MS COCO数据集训练集中出现的所有对象中,有41.43%是小对象,而中等对象和大对象的比例分别为34.4%和24.2%。另一方面,只有大约一半的训练图像中包含小对象,而70.07%和82.28%的训练图像中包含中等和大对象。这证实了小物体检测问题背后的第一个问题:具有小物体的示例较少。

第二个问题是仅有1.23%的标注像素属于小物体。中等大小的物体已经占据了超过八倍的面积,即总标注像素的10.18%,而大多数像素(82.28%)被标记为大物体的一部分。在这个数据集上训练的任何检测器都没有看到足够多的小物体案例,无论是在图像上还是在像素上。

如本节前面所述,region proposal network中的每个预测锚框如果它与一个ground-truth的IoU最高,或者对于任何ground-truth,它的IoU超过0.7,将获得正样本标签,这个过程高度偏向于大物体,因为跨越多个滑动窗口位置的大物体通常与许多锚框具有较高的IoU,而小物体可能只与一个IoU较低的锚框匹配。

如表2所列,仅有29.96%的positively matched anchors与小物体配对,而有44.49%的positively matched anchors与大物体配对。从另一个角度来看,这意味着每个大物体有2.54个匹配的锚框,而每个小物体只有一个匹配的锚框。此外,Average Max IoU指标显示,即使是小物体的最佳匹配锚框通常也具有较低的IoU值。小物体的平均最大IoU仅为0.29,而中等和大物体的最佳匹配锚框的IoU值约为其两倍,分别为0.57和0.66。我们通过在图5中展示一些示例来说明这一现象。这些观察结果表明,小物体在计算 region proposal loss,时贡献较少,从而使整个网络偏向于偏爱大和中等物体。
在这里插入图片描述
在这里插入图片描述


4 Oversampling and Augmentation

我们通过明确解决前一节中概述的MS COCO数据集中与小物体相关的问题,改善了对象检测器在小物体上的性能。特别是,我们对包含小物体的图像进行 over-sample,并进行小物体增强。尽管我们使用Mask R-CNN评估了所提出的方法,但它适用于任何其他对象检测网络或框架,因为oversampling和augmentation都是作为数据预处理进行的。

Oversampling: 我们通过在训练过程中对这些包含小物体的图像进行oversampling来解决相对较少包含小物体的图像的问题。这是缓解MS COCO数据集中的问题并提高小物体检测性能的一种简单直接的方法。在实验中,我们变化oversampling rate,并研究oversampling对小物体检测以及中等和大物体检测的影响。

Augmentation: 除了过采样,我们还引入了专注于小物体的数据增强。MS COCO数据集中提供的Instance segmentation masks使我们能够从原始位置复制任何对象,并将其粘贴到不同的位置。在每个图像中增加小物体的数量会增加匹配的锚点的数量。这反过来会提高小物体对训练期间RPN损失函数的贡献。在将对象粘贴到新位置之前,我们对其进行随机变换。我们通过改变物体尺寸±20%进行缩放,并将其旋转±15°。

我们只考虑非遮挡的对象,因为在不同分割掩码之间粘贴具有不可见部分的不连续分割掩码通常会导致不太逼真的图像。我们确保新粘贴的对象不与任何现有对象重叠,并且距离图像边界至少有五个像素。

在图4中,我们以图形方式说明了所提出的增强策略以及它如何在训练过程中增加匹配的锚点数量,从而实现更好的小物体检测器。

在这里插入图片描述


5 Experimental Setup

5.1 Oversampling

在第一组实验中,我们调查了对包含小物体的图像进行oversampling的效果。我们在两倍、三倍和四倍之间变化oversampling ratio。为了提高效率,我们并非实际进行随机过采样,而是创建了多个包含小物体的图像副本。

5.2 Augmentation

在第二组实验中,我们调查了在小物体检测和分割中使用augmentation的效果。我们将每个图像中的所有小物体都进行复制和粘贴。我们还对具有小物体的图像进行oversample,以研究oversample和augmentation策略之间的相互作用。

我们测试了三种设置。在第一种设置中,我们用复制粘贴了小物体的图像替换每个包含小物体的图像。在第二种设置中,我们复制这些augmentation的图像以模拟过采样。在最后一种设置中,我们保留原始图像和augmentation的图像,这相当于将包含小物体的图像进行两倍的过采样,同时在复制的副本中增加更多的小物体。

5.3 Copy-Pasting Strategies

有不同的方式可以复制粘贴小物体。我们考虑了三种不同的策略。首先,我们在图像中选择一个小物体,并在随机位置进行多次复制粘贴。其次,我们选择多个小物体,并将每个小物体精确地复制粘贴到任意位置。最后,我们将每个图像中的所有小物体在随机位置多次复制粘贴。在所有情况下,我们使用上述的第三种augmentation设置;也就是说,我们保留原始图像及其augmentation副本。

5.4 Pasting Algorithms

在复制粘贴小物体时,有两个要考虑的问题。首先,我们必须决定粘贴的物体是否会与其他物体重叠。尽管我们选择不引入重叠,但我们通过实验证明这是否是一个好的策略。其次,对于粘贴的物体边缘是否执行额外的处理,这是一个设计选择。我们通过实验证明与不进行进一步处理相比,使用不同大小的高斯滤波器对边界进行模糊是否有帮助。


6 Result and Analysis

6.1 Oversampling

通过在训练过程中更频繁地对小物体图像进行采样(参见表3),可以提高小物体分割和检测的平均精度(AP)。观察到最大的收益是在3倍过采样情况下,将小物体的AP提高了1%(相对改进幅度为8.85%)。虽然中等大小物体的性能受到的影响较小,但大物体的检测和分割性能一直受到过采样的影响,这表明过采样的比例必须根据小物体和大物体之间的相对重要性来选择。
在这里插入图片描述

6.2 Augmentation

在表4中,我们展示了使用不同组合的增强和过采样策略的结果。当我们将每个包含小物体的图像替换为包含更多小物体的副本(第二行)时,性能明显下降。当我们将这些增强的图像按2倍的比例进行过采样时,小物体的分割和检测性能恢复了损失,尽管整体性能仍然比基准线差。当我们在一个经过增强的验证集上评估该模型时,而不是在原始验证集上,我们观察到小物体增强性能增加了38%(0.161),这表明训练的模型在“粘贴”小物体方面有效地过拟合,但不一定过拟合到原始的小物体上。我们认为这是由于粘贴产生的artifacts,例如不完美的object masks和与背景的亮度差异,这些artifacts对神经网络来说相对容易检测到。最佳结果是通过将过采样和概率为p = 0.5的增强(原始+增强)与original to augmented的小物体比例为2:1相结合来实现的。这个设置比仅使用过采样得到的结果更好,验证了粘贴小物体的提出策略的有效性。
在这里插入图片描述

6.3 Copy-Pasting strategies

在表5中,我们可以看到复制粘贴单个对象会导致在小物体上的模型表现更好,但是会稍微降低大物体的性能。这些结果也比仅进行两倍的过采样好。然而,性能在一个或两个复制粘贴操作后就已经达到峰值了。多次添加相同的对象不会带来性能的提升。
在这里插入图片描述

在表6中可以看到,多次复制粘贴小物体比仅复制粘贴单个对象要好。在这种情况下,我们发现每个对象最多复制粘贴三次的效果最好。
在这里插入图片描述

最后,在表7中列出了将每个图像中的所有小物体复制粘贴的结果。我们发现最佳的分割和检测结果是将所有对象复制粘贴一次的情况。我们怀疑这可能有两个原因。首先,通过拥有所有小物体的多个副本,original to pasted的小物体比例迅速减少。其次,每个图像中的物体数量增加,导致训练图像和测试图像之间的不匹配更加显著。
在这里插入图片描述

6.4 Pasting Algorithms

正如表8所示,在没有考虑图像中其他对象已经占据的区域的情况下,随机粘贴对象会导致小物体的性能较差。这证实了我们的设计选择,避免粘贴对象与现有对象之间的重叠。此外,对粘贴对象的边缘进行高斯模糊并没有显示出任何改善效果,这表明最好是将对象原样粘贴,除非采用更复杂的对象融合策略。

在这里插入图片描述


7 Conclusion

We investigated the problem of small object detection. We showed that one of the factors behind the poor average precision for small objects is the lack of representation of small objects in a training data. This is especially true with the existing state-of-the-art object detector which requires the presence of enough objects for predicted anchors to match during training. We proposed two strategies for augmenting the original MS COCO database to overcome the issue. First, we show the performance on small objects can easily improve by oversampling images containing small objects during training. Second, we propose an augmentation algorithm based on copy-pasting small objects. Our experiments proved a 9.7% relative improvement for the instance segmentation and 7.1% for object detection for small objects compared to the current state of the art, obtained by Mask R-CNN, on MS COCO. The proposed set of augmentation methods offers the trade-off between the quality of predictions for small and large objects, as verified by the experiments.

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值