【计算机视觉】小目标检测研究进展：小目标定义及难点分析（详细讲解）

最新推荐文章于 2025-03-21 08:35:08 发布

置顶旅途中的宽~

最新推荐文章于 2025-03-21 08:35:08 发布

阅读量1.6w

点赞数 55

分类专栏：计算机视觉文章标签：计算机视觉目标检测人工智能小目标检测

本文链接：https://blog.csdn.net/wzk4869/article/details/135242383

版权

计算机视觉专栏收录该内容

165 篇文章

订阅专栏

文章目录

一、引言
二、小目标定义及难点分析
- 2.1 小目标定义
- 2.2 小目标检测面临的挑战
三、参考文献

一、引言

目标检测是计算机视觉领域中的一个重要研究方向，也是其他复杂视觉任务的基础。作为图像理解和计算机视觉的基石，目标检测是解决分割、场景理解、目标跟踪、图像描述和事件检测等更高层次视觉任务的基础。

小目标检测长期以来是目标检测中的一个难点，其旨在精准检测出图像中可视化特征极少的小目标（32像素×32像素以下的目标）。

在现实场景中，由于小目标是的大量存在，因此小目标检测具有广泛的应用前景，在自动驾驶、智慧医疗、缺陷检测和航拍图像分析等诸多领域发挥着重要作用。

近年来，深度学习技术的快速发展为小目标检测注入了新鲜血液，使其成为研究热点。然而，相对于常规尺寸的目标，小目标通常缺乏充足的外观信息，因此难以将它们与背景或相似的目标区分开来。在深度学习的驱动下，尽管目标检测算法已取得了重大突破，但是对于小目标的检测仍然是不尽人意的。在目标检测公共数据集MS COCO［1］上，小目标和大目标在检测性能上存在显著差距，小目标的检测性能通常只有大目标的一半。由此可见，小目标检测仍然是充满挑战的。

此外，真实场景是错综复杂的，通常会存在光照剧烈变化、目标遮挡、目标稠密相连和目标尺度变化等问题，而这些因素对小目标特征的影响是更加剧烈的，进一步加大了小目标检测的难度。

事实上，小目标检测具有重要的研究意义和应用价值。对于机场跑道，路面上会存在微小物体，如螺帽、螺钉、垫圈、钉子和保险丝等，精准地检测出跑道的这些小异物将避免重大的航空事故和经济损失。对于自动驾驶，从汽车的高分辨率场景照片中准确地检测出可能引起交通事故的小物体是非常有必要的。对于工业自动化，同样需要小目标检测来定位材料表面可见的小缺陷。对于卫星遥感图像，图像中的目标，例如车、船，可能只有几十甚至几个像素。精确地检测出卫星遥感图像中的微小目标将有助于政府机构遏制毒品和人口贩运，寻找非法渔船并执行禁止非法转运货物的规定。

综上所述，小目标检测具有广泛的应用价值和重要的研究意义。对小目标检测展开研究将有助于推动目标检测领域的发展，扩宽目标检测在现实世界的应用场景，提高中国的科技创新水平和加快中国全面步入智能化时代的步伐。

目标检测作为计算机视觉的基础研究，已有许多优秀的综述发表。Zou等［2］梳理了400多篇关于目标检测技术发展的论文，包括历史上的里程碑检测器、检测框架、评价指标、数据集、加速技术和检测应用等诸多内容，系统而全面地展现了目标检测这个领域的现状。Oksuz等［3］则从目标检测中存在的类别不平衡、尺度不平衡、空间不平衡以及多任务损失优化之间的不平衡等四大不平衡问题出发，对现有的目标检测算法进行了深入的总结。Zhao等［4］在对比总结目标检测中提及了小目标检测所面临的挑战。Agawal等［5］则在目标检测任务的主要挑战中简要介绍了几种常用的小目标检测方法。Chen等［6］立意于小目标检测的4大支柱性方法，详细描述了多尺度表示、上下文信息、超分辨率、区域建议以及其他方法等5类具代表性的网络，并介绍了部分小目标数据集。Tong等［7］从多尺度学习、数据增强、训练策略、基于上下文的检测和基于生成对抗网络的检测等5个维度全面回顾了基于深度学习的小目标检测方法，并在一些流行的小目标检测数据集上，对当前经典的小目标检测算法进行了比较分析。Liu等［8］在总结对比最近用于小目标检测的深度学习方法的基础上，还简单阐述了常规目标检测、人脸检测、航空图像目标检测以及图像分割等4个研究领域的相关技术。此外，还有文献［9‑10］等中文综述中对小目标检测这一领域做了一定的总结工作。然而，文献［2］主要对一般目标检测算法进行了回顾，而对小目标检测方法的介绍甚少。文献［3］则主要关注于目标检测领域中存在的不平衡问题。文献［4‑5］对目标检测领域进行了全面的综述总结，虽然有所涉及小目标检测问题，但是并没有进行全面的总结和深入的分析。文献［6‑8］是针对小目标这一问题的综述，对小目标检测方法与性能评估进行了较为全面的总结，但是在对小目标的定义、难点分析和性能评估等方面仍有所欠缺。文献［9‑10］作为中文的小目标检测综述，分别对小目标检测这一领域进行了总结综述，但是对于小目标检测方法的归类与分析仍不够深入。

二、小目标定义及难点分析

2.1 小目标定义

不同场景对于小目标的定义各不相同，目前尚未形成统一的标准。现有的小目标定义方式主要分为以下两类，即基于相对尺度的定义与基于绝对尺度的定义。

（1）基于相对尺度定义

即从目标与图像的相对比例这一角度考虑来对小目标进行定义。Chen等［11］提出一个针对小目标的数据集，并对小目标做了如下定义：同一类别中所有目标实例的相对面积，即边界框面积与图像面积之比的中位数在0.08%~0.58%之间。文中对小目标的定义也给出了更具体的说法，如在640像素×480像素分辨率图像中，16像素×16像素到42像素×42像素的目标应考虑为小目标。

除了Chen等对小目标的定义方式以外，较为常见的还有以下几种：

目标边界框的宽高与图像的宽高比例小于一定值，较为通用的比例值为0.1；
目标边界框面积与图像面积的比值开方小于一定值，较为通用的值为0.03；
根据目标实际覆盖像素与图像总像素之间比例来对小目标进行定义。

但是，这些基于相对尺度的定义存在诸多问题，如这种定义方式难以有效评估模型对不同尺度目标的检测性能。此外，这种定义方式易受到数据预处理与模型结构的影响。

（2）基于绝对尺度定义

则从目标绝对像素大小这一角度考虑来对小目标进行定义。目前最为通用的定义来自于目标检测领域的通用数据集——MS COCO数据集［1］，将小目标定义为分辨率小于32像素×32像素的目标。

对于为什么是32像素×32像素，本文从两个方向进行了思考。一种思路来自于Torralba等［12］的研究，人类在图像上对于场景能有效识别需要的彩色图像像素大小为32像素×32像素，即小于32像素×32像素的目标人类都难以识别。另一种思路来源于深度学习中卷积神经网络本身的结构，以与MS COCO数据集第一部分同年发布的经典网络结构VGG‑Net［13］为例，从输入图像到全连接层的特征向量经过了5个最大池化层，这导致最终特征向量上的“一点”对应到输入图像上的像素大小为32像素×32像素。于是，从特征提取的难度不同这一角度考虑，可以将32像素×32像素作为区分小目标与常规目标的一个界定标准。

除了MS COCO之外，还有其他基于绝对尺度的定义，如在航空图像数据集DOTA［14］与人脸检测数据集WIDER FACE［15］中都将像素值范围在［10， 50］之间的目标定义为小目标。在行人识别数据集CityPersons［16］中，针对行人这一具有特殊比例的目标，将小目标定义为了高度小于75像素的目标。基于航空图像的小行人数据集TinyPerson［17］则将小目标定义为像素值范围在［20， 32］之间的目标，而且近一步将像素值范围在［2， 20］之间的目标定义为微小目标。

2.2 小目标检测面临的挑战

前文中已简要阐述小目标的主流定义，通过这些定义可以发现小目标像素占比少，存在覆盖面积小、包含信息少等基本特点。这些特点在以往综述或论文中也多有提及，但是少有对小目标检测难点进行分析与总结。接下来本文将试图对造成小目标检测难度高的原因以及其面临的挑战进行分析与总结。

（1）可利用特征少

无论是从基于绝对尺度还是基于相对尺度的定义，小目标相对于大/中尺度尺寸目标都存在分辨率低的问题。低分辨率的小目标可视化信息少，难以提取到具有鉴别力的特征，并且极易受到环境因素的干扰，进而导致了检测模型难以精准定位和识别小目标。

（2）定位精度要求高

小目标由于在图像中覆盖面积小，因此其边界框的定位相对于大/中尺度尺寸目标具有更大的挑战性。在预测过程中，预测边界框框偏移一个像素点，对小目标的误差影响远高于大/中尺度目标。此外，现在基于锚框的检测器依旧占据绝大多数，在训练过程中，匹配小目标的锚框数量远低于大/中尺度目标，如图1所示，这进一步地导致了检测模型更侧重于大/中尺度目标的检测，难以检测小目标。图中IoU（Intersection over union）为交并比。

在这里插入图片描述
（3）现有数据集中小目标占比少

在目标检测领域中，现有数据集大多针对大/中尺度尺寸目标，较少关注小目标这一特别的类型。MS COCO中虽然小目标占比较高，达31.62%，但是每幅图像包含的实例过多，小目标分布并不均匀。同时，小目标不易标注，一方面来源于小目标在图像中不易被人类关注，很难标全；另一方面是小目标对于标注误差更为敏感。另外，现有的小目标数据集往往针对特定场景，例如文献［14］针对空中视野下的图像、文献［15］针对人脸、文献［16‑17］针对行人、文献［18］针对交通灯、文献［19］针对乐谱音符，使用这些数据集训练的网络不适用于通用的小目标检测。总的来说，大规模的通用小目标数据集尚处于缺乏状态，现有的算法没有足够的先验信息进行学习，导致了小目标检测性能不足。

（4）样本不均衡问题

为了定位目标在图像中的位置，现有的方法大多是预先在图像的每个位置生成一系列的锚框。在训练的过程中，通过设定固定的阈值来判断锚框属于正样本还是负样本。这种方式导致了模型训练过程中不同尺寸目标的正样本不均衡问题。当人工设定的锚框与小目标的真实边界框差异较大时，小目标的训练正样本将远远小于大/中尺度目标的正样本，这将导致训练的模型更加关注大/中尺度目标的检测，而忽略小目标的检测。如何解决锚框机制导致的小目标和大/中尺度目标样本不均衡问题也是当前面临的一大挑战。

（5）小目标聚集问题

相对于大/中尺度目标，小目标具有更大概率产生聚集现象。当小目标聚集出现时，聚集区域相邻的小目标通过多次降采样后，反应到深层特征图上将聚合成一个点，导致检测模型无法区分。当同类小目标密集出现时，预测的边界框还可能会因后处理的非极大值抑制操作将大量正确预测的边界框过滤，从而导致漏检情况。另外，聚集区域的小目标之间边界框距离过近，还将导致边界框难以回归，模型难以收敛。

（6）网络结构原因

在目标检测领域，现有算法的设计往往更为关注大/中尺度目标的检测性能。针对小目标特性的优化设计并不多，加之小目标自身特性所带来的难度，导致现有算法在小目标检测上普遍表现不佳。虽然无锚框的检测器设计是一个新的发展趋势，但是现有网络依旧是基于锚框的检测器占据主流，而锚框这一设计恰恰对小目标极不友好。此外，在现有网络的训练过程中，小目标由于训练样本占比少，对于损失函数的贡献少，从而进一步减弱了网络对于小目标的学习能力。

三、参考文献

LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: Common objects in context[C]//Proceedings of European Conference on Computer Vision. Cham: Springer, 2014: 740‑755. [百度学术]
ZOU Z,SHI Z,GUO Y,et al.Object detection in 20 years: A survey[EB/OL].(2019‑05‑13)[2019‑05‑16].https://arxiv.org/abs/1905.05055. [百度学术]
OKSUZ K,CAM B C,KALKAN S,et al.Imbalance problems in object detection: A review[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2020.DOI:10.1109/TPAMI.2020.2981890. [百度学术]
ZHAO Z Q,ZHENG P,XU S,et al.Object detection with deep learning: A review[J].IEEE Transactions on Neural Networks and Learning Systems,2019,30(11): 3212‑3232. [百度学术]
AGARWAL S,TERRAIL J O D,JURIE F.Recent advances in object detection in the age of deep convolutional neural networks[EB/OL].(2018‑09‑10)[2019‑08‑20].https://arxiv.org/abs/1809.03193. [百度学术]
CHEN G,WANG H,CHEN K,et al.A survey of the four pillars for small object detection: Multiscale representation, contextual information, super‑resolution, and region proposal[J].IEEE Transactions on Systems, Man, and Cybernetics: Systems,2020,99: 1‑18. [百度学术]
TONG K,WU Y,ZHOU F.Recent advances in small object detection based on deep learning: A review[J].Image and Vision Computing,2020,97: 103910. [百度学术]
LIU Y,SUN P,WERGELES N,et al.A survey and performance evaluation of deep learning methods for small object detection[J].Expert Systems with Applications,2021,172(4): 114602. [百度学术]
梁鸿,王庆玮,张千,等.小目标检测技术研究综述[J].计算机工程与应用,2021,57(1): 17‑28. [百度学术] LIANG Hong,WANG Qingwei,ZHANG Qian,et al.Small object detection technology: A review[J].Computer Engineering and Applications,2021,57(1): 17‑28. [百度学术]
刘颖,刘红燕,范九伦,等.基于深度学习的小目标检测研究与应用综述[J].电子学报,2019,48(3): 590‑601. [百度学术] LIU Ying,LIU Hongyan,FAN Jiulun,et al.A survey of research and application of small object detection based on deep learning[J].Acta Electronica Sinica,2019,48(3): 590‑601. [百度学术]
CHEN C, LIU M Y, TUZEL O, et al. R‑CNN for small object detection[C]//Proceeding of Asian Conference on Computer Vision. Cham: Springer, 2016: 214‑230. [百度学术]
TORRALBA A,FERGUS R,FREEMAN W T. 80 million tiny images: A large data set for nonparametric object and scene recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2008,30(11): 1958‑1970. [百度学术]
SIMONYAN K,ZISSERMAN A.Very deep convolutional networks for large‑scale image recognition[EB/OL].(2014‑09‑04)[2015‑04‑10]. https://arxiv.org/abs/1409.1556. [百度学术]
XIA G S, BAI X, DING J, et al. DOTA: A large‑scale dataset for object detection in aerial images[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE,2018: 3974‑3983. [百度学术]
YANG S, LUO P, LOY C C, et al. Wider face: A face detection benchmark[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE,2016: 5525‑5533. [百度学术]
ZHANG S, BENENSON R, SCHIELE B. Citypersons: A diverse dataset for pedestrian detection[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2017: 3213‑3221. [百度学术]
YU X, GONG Y, JIANG N, et al. Scale match for tiny person detection[C]// Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. Los Alamitos: IEEE,2020: 1257‑1265. [百度学术]
BEHRENDT K, NOVAK L, BOTROS R. A deep learning approach to traffic lights: Detection, tracking, and classification[C]// 2017 IEEE International Conference on Robotics and Automation (ICRA). Singapore: IEEE, 2017: 1370‑1377. [百度学术]
LUKAS T, ELEZI I, SCHMIDHUBER J, et al. Deepscores-a dataset for segmentation, detection and classification of tiny objects[C]//Proceedings of 2018 24th International Conference on Pattern Recognition (ICPR). New York: IEEE, 2018: 3704‑3709. [百度学术]