TPAMI 2023:Towards Large-Scale Small Object Detection:Survey and Benchmarks

最新推荐文章于 2024-12-03 19:05:48 发布

科里奥利奥666

最新推荐文章于 2024-12-03 19:05:48 发布

阅读量943

点赞数 10

分类专栏：论文阅读文章标签：人工智能目标检测

本文链接：https://blog.csdn.net/weixin_62918638/article/details/143824171

版权

一.小目标检测定义

1.1 基于相对尺度定义

即从目标与图像的相对比例这一角度考虑来对小目标进行定义。Chen等提出一个针对小目标的数据集，并对小目标做了如下定义：同一类别中所有目标实例的相对面积，即边界框面积与图像面积之比的中位数在0.08%~0.58%之间。文中对小目标的定义也给出了更具体的说法，如在640像素×480像素分辨率图像中，16像素×16像素到42像素×42像素的目标应考虑为小目标。

除了Chen等对小目标的定义方式以外，较为常见的还有以下几种：

目标边界框的宽高与图像的宽高比例小于一定值，较为通用的比例值为0.1；
目标边界框面积与图像面积的比值开方小于一定值，较为通用的值为0.03；
根据目标实际覆盖像素与图像总像素之间比例来对小目标进行定义。
但是，这些基于相对尺度的定义存在诸多问题，如这种定义方式难以有效评估模型对不同尺度目标的检测性能。此外，这种定义方式易受到数据预处理与模型结构的影响。

1.2 基于绝对尺度定义

则从目标绝对像素大小这一角度考虑来对小目标进行定义。目前最为通用的定义来自于目标检测领域的通用数据集——MS COCO数据集，将小目标定义为分辨率小于32像素×32像素的目标。

对于为什么是32像素×32像素，本文从两个方向进行了思考。一种思路来自于Torralba等［12］的研究，人类在图像上对于场景能有效识别需要的彩色图像像素大小为32像素×32像素，即小于32像素×32像素的目标人类都难以识别。另一种思路来源于深度学习中卷积神经网络本身的结构，以与MS COCO数据集第一部分同年发布的经典网络结构VGG‑Net［13］为例，从输入图像到全连接层的特征向量经过了5个最大池化层，这导致最终特征向量上的“一点”对应到输入图像上的像素大小为32像素×32像素。于是，从特征提取的难度不同这一角度考虑，可以将32像素×32像素作为区分小目标与常规目标的一个界定标准。