论文阅读 SLICING AIDED HYPER INFERENCE AND FINE-TUNING FOR SMALL OBJECT DETECTION

Re-赟

已于 2023-07-19 11:19:36 修改

阅读量604

点赞数 1

文章标签：论文阅读目标检测人工智能

于 2023-07-13 16:17:09 首次发布

本文链接：https://blog.csdn.net/weixin_45935290/article/details/131703163

版权

本文提出了一种名为SlicingAidedHyperInference(SAHI)的开源框架，用于提升小物体检测的性能。通过在Visdrone和xView数据集上的实验，该方法能提高FCOS、VFNet和TOOD检测器的物体检测AP，且通过切片辅助微调可进一步提升准确性。该框架解决了高分辨率图像中检测小物体的挑战，同时优化内存利用率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

- SLICING AIDED HYPER INFERENCE AND FINE-TUNING FOR SMALL OBJECT DETECTION

SLICING AIDED HYPER INFERENCE AND FINE-TUNING FOR SMALL OBJECT DETECTION

ABSTRACT

在surveillance applications中，检测场景中的小物体和远处的物体是一个主要挑战。这些物体在图像中由少数像素表示，并且缺乏足够的细节，这使得它们难以使用传统检测器进行检测。本研究提出了一种名为Slicing Aided Hyper Inference (SAHI)的开源框架，为小物体检测提供了通用的slicing aided inference和fine-tuning pipeline 。通过在Visdrone和xView航空物体检测数据集上使用物体检测baselines进行实验评估，结果显示所提出的inference方法可以分别将FCOS、VFNet和TOOD检测器的物体检测AP提高6.8%、5.1%和5.3%。此外，通过 slicing aided fine-tuning，可以进一步提高检测准确性，累积增加12.7%、13.4%和14.5%的AP。

1. INTRODUCTION

近年来，物体检测在不同应用领域得到了广泛研究，包括人脸检测、视频物体检测、视频监控和自动驾驶汽车。在这个领域中，采用深度学习架构高效并且准确，例如Faster R-CNN 、RetinaNet，并进一步发展为Cascade R-CNN 、VarifocalNet 等变体。所有这些最新的检测器都是在well-known的数据集上进行训练和评估，例如ImageNet 、Pascal VOC12、MS COCO。这些数据集主要涉及低分辨率图像（640×480），其中包含相当大的对象，其像素覆盖范围很大（平均覆盖图像高度的60%）。虽然训练的模型在这些类型的输入数据上具有成功的检测性能，但在由高端无人机和监控摄像头生成的高分辨率图像上进行小物体检测任务时，它们的准确性显著降低。

无人机、4K相机和深度学习研究的最新进展使得满足Detection, Observation, Recognition and Identification（DORI）准则的长距离物体检测成为可能。DORI准则为不同任务定义了对象的最小像素高度：10% of the image height is required to detect and 20% to recognize the objects（即全高清视频中的108个像素）。对于基于CNN的目标检测相对较小的像素有限制，此外，高分辨率图像对内存需求提出了更高的要求。

在本文中，我们提出了一种基于slicing aided inference和fine-tuning的解决方案，用于在高分辨率图像上进行小物体检测，同时保持更高的内存利用率。图1展示了对Visdrone测试集中一张样本图像进行小物体检测的改进效果。

在这里插入图片描述

2. RELATED WORK

略过

3. PROPOSED APPROACH

为了处理小物体检测问题，我们提出了一个基于slicing的通用框架，在fine-tuning和 inference阶段进行切片处理。将输入图像划分为重叠的patches，可以使小物体相对于输入网络的图像具有更大的像素区域。

Slicing Aided Fine-tuning (SF) 目标检测框架，如Detectron2 、MMDetection 和YOLOv5 ，提供了在ImageNet 和MS COCO等数据集上预训练的权重。这使得我们可以使用较小的数据集和较短的训练时间对模型进行微调，而不是从头开始使用大型数据集进行训练。这些常见的数据集主要涉及低分辨率图像（640×480），其中包含相当大的对象，其像素覆盖范围很大（平均覆盖图像高度的60%）。使用这些数据集预训练的模型对类似的输入提供非常好的检测性能。然而，它们在由高端无人机和监控摄像头生成的高分辨率图像上进行小物体检测任务时的准确性显著降低。

为了克服这个问题，我们通过从 images fine-tuning dataset中提取patches来增强数据集，如图2所示。

在这里插入图片描述

每个图像I^F₁，I^F₂，…，I^F_j被切分为重叠的补丁P^F₁，P^F₂，…，P^F_k，其中补丁的尺寸为M和N，并在预定义的范围[Mmin，Mmax]和[Nmin，Nmax]内选择。这些范围被视为超参数。然后，在微调过程中，通过保持宽高比来调整补丁的大小，使得图像宽度介于800到1333个像素之间，从而获得增强图像I₁，I₂，…，I_k，其中相对于原始图像，物体的尺寸更大。

在微调过程中，利用这些增强图像I₁，I₂，…，I_k以及原始图像I^F₁，I^F₂，…，I^F_j（以促进对大物体的检测）。需要注意的是，随着补丁尺寸的减小，较大的物体可能无法适应补丁和交叉区域，这可能导致较大物体的检测性能较差。

Slicing Aided Hyper Inference (SAHI): Slicing方法也在inference步骤中使用，如图2所述。首先，将原始查询图像I切成l个M×N的overlapping patches P^I₁，P^I₂，…，P^I_l。然后，保持宽高比的情况下调整每个补丁的大小。然后，独立地对每个重叠的补丁应用物体检测的前向传递。可以选择使用原始图像进行 full-inference（FI）以检测较大的物体。最后，将overlapping prediction results和（如果使用）FI结果使用非极大值抑制（NMS）合并回原始大小。在NMS过程中，与预定义的匹配阈值T_m相比具有更高交并比（IoU）的边界框被匹配，对于每个匹配，检测概率低于阈值T_d的检测结果将被移除。

4. RESULTS

所提出的方法已经在FCOS、VarifocalNet和TOOD物体检测器上使用MMDetection 框架进行了集成，以进行实验评估。

VisDrone2019-Detection是一个由无人机在不同位置和不同高度拍摄的包含8599张图像的物体检测数据集。该数据集中的大部分物体都是小型的、密集分布的，并且部分被遮挡。不同场景中还存在光照和透视变化。该数据集中的目标边界框注释了十个预定义类别：行人、人员、自行车、汽车、货车、卡车、三轮车、雨篷三轮车、公共汽车、摩托车。Super categories定义为行人、摩托车、汽车和卡车。训练和验证子集分别包含6471张和548张图像，这些图像在不同位置但类似的环境中收集。

xView 是一个在卫星图像中进行物体检测的最大的公开数据集之一。它包含来自世界各地复杂场景的图像，并使用边界框进行了注释。它包含来自60个不同类别的超过100万个目标实例。在实验中，随机选择了75%和25%的分割作为训练集和验证集。

在实验中，使用学习率为0.01、momentum为0.9、 weight decay为0.0001和 linear warmup 500次迭代的SGD优化器。学习率调度使用exponential decay，在第16和第22个epoch进行。对于slicing aided fine-tuning，通过对图像和annotations进行切片创建patches，然后使用这些patches增强Visdrone和xView的训练集。每个patches的大小在480到640和300到500的范围内随机选择，分别针对Visdrone和xView数据集。输入图像被调整大小以使其宽度在800到1333之间（保持宽高比）。在inference过程中，NMS匹配阈值T_m设置为0.5。

5. CONCLUSION

The proposed slicing aided hyper inference scheme can directly be integrated into any object detection inference pipeline and does not require pretraining. Experiments with FCOS, VFNet, and TOOD detectors on Visdrone and xView datasets show that it can result in up to 6.8% AP increase. Moreover, applying slicing aided fine-tuning results in an additional 14.5% AP increase for small objects and applying 25% overlap between slices results in a further 2.9% increase in AP. Training a network with higher resolution images through larger feature maps result in higher computation and memory requirements. The proposed approach increases the computational time linearly, while keeping memory requirements fixed. Computation and memory budgets can also be traded-off by adjusting the patch sizes, considering the target platform. In the future, instance segmentation models will be benchmarked utilizing the proposed slicing approach and different post-processing techniques will be evaluated.