一.小目标检测定义
1.1 基于相对尺度定义
即从目标与图像的相对比例这一角度考虑来对小目标进行定义。Chen等提出一个针对小目标的数据集,并对小目标做了如下定义:同一类别中所有目标实例的相对面积,即边界框面积与图像面积之比的中位数在0.08%~0.58%之间。文中对小目标的定义也给出了更具体的说法,如在640像素×480像素分辨率图像中,16像素×16像素到42像素×42像素的目标应考虑为小目标。
除了Chen等对小目标的定义方式以外,较为常见的还有以下几种:
目标边界框的宽高与图像的宽高比例小于一定值,较为通用的比例值为0.1;
目标边界框面积与图像面积的比值开方小于一定值,较为通用的值为0.03;
根据目标实际覆盖像素与图像总像素之间比例来对小目标进行定义。
但是,这些基于相对尺度的定义存在诸多问题,如这种定义方式难以有效评估模型对不同尺度目标的检测性能。此外,这种定义方式易受到数据预处理与模型结构的影响。
1.2 基于绝对尺度定义
则从目标绝对像素大小这一角度考虑来对小目标进行定义。目前最为通用的定义来自于目标检测领域的通用数据集——MS COCO数据集,将小目标定义为分辨率小于32像素×32像素的目标。
对于为什么是32像素×32像素,本文从两个方向进行了思考。一种思路来自于Torralba等[12]的研究,人类在图像上对于场景能有效识别需要的彩色图像像素大小为32像素×32像素,即小于32像素×32像素的目标人类都难以识别。另一种思路来源于深度学习中卷积神经网络本身的结构,以与MS COCO数据集第一部分同年发布的经典网络结构VGG‑Net[13]为例,从输入图像到全连接层的特征向量经过了5个最大池化层,这导致最终特征向量上的“一点”对应到输入图像上的像素大小为32像素×32像素。于是,从特征提取的难度不同这一角度考虑,可以将32像素×32像素作为区分小目标与常规目标的一个界定标准。
二.小目标检测挑战
2.1.小目标检测性能远不如中大目标检测性能的原因:
(1)从小目标中有限的信息学习特征表示是很困难的
(2)缺乏小目标检测的大规模数据集
2.2.小目标检测的挑战:
(1)低效的特征表示:
(2)脆弱的回归分支
(3)尺度级样本不平衡