MAF-YOLO: Multi-modal attention fusion based YOLO forpedestrian detection

yBooooo

已于 2022-06-02 18:40:56 修改

阅读量3.8k

点赞数 4

文章标签：深度学习计算机视觉聚类

于 2022-02-28 17:31:50 首次发布

本文链接：https://blog.csdn.net/yBooooo/article/details/123186736

版权

该文提出了一种名为MAF-YOLO的实时行人检测方法，适用于夜间环境。通过多模态注意力融合模块结合可见光和红外光特征，利用K-means聚类优化锚盒大小，提高小目标检测的准确性和鲁棒性。文章还介绍了双注意模块，以获取低分辨率目标的更多语义特征。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

MAF-YOLO:基于多模态注意力融合的行人检测YOLO

ABSTRACT

实现自然环境中行人的快速准确检测是人工智能系统的重要应用。然而，由于红外图像的低光密度和低分辨率，夜间行人的准确检测具有一定的挑战性，且对检测速度要求较高。提出一种基于多模态注意力融合YOLO (mafo -YOLO)的实时行人检测方法。首先，基于压缩的Darknet53框架构建多模态特征提取模块，以适应夜间行人检测，保证检测效率;从两种模式中提取特征，然后通过模态加权融合模块进行融合。其次，我们定义一个损失函数，并基于K-means聚类算法重新生成锚箱的大小，以提高小目标的检测速度和鲁棒性。最后，利用双注意模块从低分辨率的小目标中获取更多的语义特征。在KAIST和OSU的色热数据集上的实验结果证实了该方法的有效性。该方法也可用于其他行人检测算法。

1. Introduction

目标检测技术在计算机视觉中发挥着重要的基础性作用，因为它具有多种用途，如安全系统、目标跟踪、行人检测等。随着无人驾驶汽车的发展，行人检测已成为目标检测领域的关键问题。精确的行人检测算法可以提高无人驾驶技术的安全系数，保护驾驶员[1]。然而，在日常道路条件下，气候和照明变化会显著影响行人检测的准确性。此外，行人检测算法容易受到各种干扰的阻碍，例如低分辨率、遮挡或小目标检测，这导致检测精度低[2]。因此，如何在光照不足的情况下提高行人检测模型的鲁棒性是一个亟待解决的问题。迄今为止，人们从不同的角度提出了许多解决这一问题的方法。然而，大多数现有的方法倾向于在不以主要对象为目标的情况下处理提议区域包含的全部信息，这会在处理过程中产生许多不相关的信息。例如，在特征提取方面，各种背景信息可能会分散注意力。另一方面，目前的方法通常很难检测到小目标。因此，有效获取目标行人的特征仍然是一个尚未解决的问题；这主要是因为视觉信息在夜间情况下要复杂得多[3]。

即使在照明不足的情况下，红外热像仪也能获得图像的特征。它可以基于有限的可见光模式获取信息，使夜间行人检测成为可能[4]。然而，基于可见光的行人检测算法仍然表现得更好，因为在良好的光照条件下，红外光图像包含相对更多的次要特征信息。因此，近年来提出了大量基于红外和可见光多模式融合的行人检测算法。Hwang等人[5]提出了结合可见光和红外光模式的ACF+T+THOG（聚合通道特征+热+定向梯度热直方图）。实验结果表明，融合式行人检测器的性能优于单模态行人检测器。然而，由于采用传统方法，检测精度仍然有限。Wagner等人[6]利用深度卷积神经网络，提出了两种特征融合策略：早期融合和晚期融合。Liu等人[7]进一步讨论了基于深度卷积神经网络的可见光和红外图像的特征融合结构，提出了比早期融合和晚期融合更好的中间融合，再次提高了