【CV论文精读】Adaptive Fusion of Multi-Scale YOLO for Pedestrian Detection基于多尺度自适应融合YOLO的行人检测-CSDN博客

本文链接：https://blog.csdn.net/weixin_44184852/article/details/136106084

该博客提出一种分而治之的行人检测模型，基于YOLOv4，引入分割函数和多分辨率自适应融合。将图像长宽信息整合到网络缓解失真，从多个子图像提取互补信息。实验表明，该模型在多个数据集上表现优异，尤其在特殊长宽比图像中效果良好，但存在超参数需人工选择和推理时间增加的问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Adaptive Fusion of Multi-Scale YOLO for Pedestrian Detection

0.论文摘要和作者信息

摘要

虽然行人检测技术在不断改进，但由于不同规模的行人和遮挡行人模式的不确定性和多样性，行人检测仍然具有挑战性。本研究遵循单次目标检测的通用框架，提出了一种分而治之的方法来解决上述问题。该模型引入了一个分割函数，可以将一幅图像中没有重叠的行人分割成两个子图像。通过使用网络架构，对所有图像和子图像的输出执行多分辨率自适应融合，以生成最终检测结果。本研究对几个具有挑战性的行人检测数据集进行了广泛的评估，最终证明了所提出的模型的有效性。特别是，所提出的模型在来自视觉对象类2012（VOC 2012）、法国计算机科学与自动化研究所和苏黎世瑞士联邦理工学院的数据集上实现了最先进的性能，并在本研究精心设计的三倍宽度VOC 2012实验中获得了最具竞争力的结果。
行人检测，多尺度YOLO，自适应融合

作者信息

Wei-Yen Hsu1,2,3*, Member, IEEE and Wen-Yen Lin1

1Department of Information Management, National Chung Cheng University
2Center for Innovative Research on Aging Society, National Chung Cheng University 3Advanced Institute of Manufacturing with High-tech Innovations, National Chung Cheng University
*Corresponding author: Wei-Yen Hsu (email: shenswy@gmail.com; shenswy@mis.ccu.edu.tw) This work was supported by the Ministry of Science and Technology, Taiwan, under Grant MOST108-2410-H-194-088-MY3 and the Center for Innovative Research on Aging Society (CIRAS) from The Featured Areas Research Center Program within the framework of the Higher Education Sprout Project by Ministry of Education (MOE) in Taiwan, i.e. CYCH-CCU Joint Research Program under Grant CYCH-CCU-2021-07.

1.研究背景

在实际应用中，经常会出现不同比例、遮挡和特殊纵横比的行人图像，这对行人检测是一个巨大的挑战。大多数最先进的行人检测方法都致力于解决这些问题[1–2]。虽然这些方法可以很好地检测不同尺度和不同遮挡问题的行人，但当图像具有特殊的纵横比时，它们通常表现不佳。调整输入图像的大小是所有检测算法在检测过程中必须执行的第一步。然而，对于具有特殊长宽比的图像，在调整大小后，这类图像中的大多数行人都被大大压缩，甚至消失。检测器可能被其检测窗口中的信息误导，这导致应该检测的行人丢失。如图1所示，（a）是样本图像，（b）显示宽度是原始长度三倍的图像，（c-d）显示调整到固定大小的图像。该图清楚地表明，图像中的行人可能会被过度压缩，甚至在图像调整大小后消失。此外，与背景颜色相似的行人很可能在检测过程中被遗漏。因此，本研究探索了解决此类行人检测问题的方法。
在这里插入图片描述图一。(a)样本图像；(b)宽度为长度三倍的图像；（c，d）在输入图像之前由检测器调整大小的图像。

虽然深度学习已经广泛应用于行人检测[3，4]、图像识别[5]、地点识别[6]、降维[7]、物体检测[8-10, 49-52]和姿态恢复[11，12]，但仍然缺乏针对特殊纵横比图像的检测算法。更具体地说，提出了一种多标签学习方法[3]来联合学习部分检测器，以捕捉部分遮挡模式来处理部分遮挡的条件。引入了多个内置子网络[4]，这些子网络从不相交的范围用刻度检测行人。HDWE模型[5]通过集成稀疏约束和改进的RELU算子来设计，以解决来自视觉特征的点击特征预测。通过与VGG-16网络或ResNet-18网络集成，引入了SPE-VLAD层和WT-loss层[6]，以形成一种新颖的端到端深度神经网络，该网络可以通过标准的反向传播方法轻松训练。

提出了一种用于降维的无监督深度学习框架LDFA[7]。提出了一种基于集成深度学习的对象检测框架[8]。CoCNN[9]被提出在一个统一的深度模型中融合从低到高层的颜色和视差特征。门控CNN[10]被引入以集成多个卷积层用于对象检测。提出了一种新的姿态恢复方法[11]，该方法使用具有多层深度神经网络的非线性映射。提出了一种从轮廓中恢复三维人体姿态的方法[12]。

为了解决特殊长宽比下行人的不确定性和多样性以及遮挡行人模式的问题，本研究使用单阶段目标检测器You only look once（YOLO）v4[13]作为基础，并最初将图像长度和宽度信息导入网络，以缓解调整大小后的图像失真问题。本研究选择[13]作为基础，因为在网络结构中，只有最后一个滤波器的输出大小必须是固定的。因此，图像的长度和宽度信息可以很容易地导入并合并到网络中，以便更有效地使用信息，从而允许原始的深度学习行人检测方法在所有情况下都表现出改进的性能。此外，由于检测图像中的小规模行人和遮挡问题很困难，大多数深度学习都涉及多尺度建模来提高检测结果，包括Faster R-CNN[14]、Yolov3[15]和SSD[16]。虽然这些算法在添加多尺度建模后实现了性能增长，但当遇到具有特殊纵横比的图像时，这个问题无法解决，从而导致后续的检测问题。因此，利用本研究提出的分割函数和多分辨率自适应融合，通过分治法检测出一幅图像，可以解决特殊长宽比图像的行人检测问题，防止图像中行人的变形和失真导致检测性能不佳。

本研究中提出的分割函数的中心思想包括将图像中行人的不相交部分分成两个子图像，以分别从图像中提取特征。随后，使用多分辨率自适应融合来补充和融合样本图像和子图像给出的信息，以实现本研究提出的分而治之行人检测方法。分割函数和多分辨率自适应融合方法存在以下两个缺点：（1）计算量随分割函数生成的子图像数线性增加；以及（2）需要额外的融合时间。然而，将分割的总时间成本控制在不超过原始方法的两倍[13]可以减少行人检测过程中遇到的困难，而不会过度增加时间成本。

本研究的贡献如下。首先，通过将图像长度和宽度信息整合到网络中，初步缓解了调整大小后的图像失真问题。其次，在神经网络架构中应用分割函数来有效地分割样本图像，以从多个子图像中提取互补信息。第三，将多分辨率自适应融合机制整合到统一架构中。这可以整合来自多个子图像的互补信息，以创建比使用任何单个图像进行行人检测更令人满意的融合方法。最后，实验表明，本研究中提出的方法优于最初的YOLO和几种最先进的方法，因为它显示了VOC 2012 comp4[17]、法国计算机科学与自动化研究所（INRIA）[18]和瑞士苏黎士联邦理工学院（ETH）[19]数据库和VOC 2012测试集（本研究中精心设计的三倍宽度图像测试集）的最佳性能。研究的其余部分组织如下。在第2节中，讨论了关于最新方法的相关工作和文献。在第3节中，介绍了所提出的模型的技术细节。在第4节和第5节中，描述了我们进行的大量实验，并将所提出的方法应用于现有的行人数据集，以证明其可行性和性能。最后，第6节对本研究进行了总结，并为今后的研究提供了方向。

2.相关工作

在过去的几年里，来自不同国家的研究人员一直在寻求改善行人检测[20]。近年来，由于神经网络架构和硬件设备的进步，人们对神经网络产生了兴趣，深度学习也得到了普及。此外，辛顿等人的研究小组。（2012）通过使用深度学习赢得了ImageNet竞赛[21]，这促进了深度学习的概念，并影响了许多研究人员专注于这一领域进行许多令人印象深刻的研究，包括Mask R-CNN[22]、DSSD[23]、InsideOutside Net[24]、卷积学习[25]、outline features神经网络[26]、R-CNN[27]、Fast R-CNN[28]、YOLOv1[29]和RetinaNet[30]。[27]中的一个主要缺点是其检测操作极其耗时，因为每个区