MSFFA-YOLO Network: Multiclass Object Detection for Traffic Investigations in Foggy Weather
abstract
这篇文章提出了一种多类别目标检测方法,multiscale feature fusion attention-YOLO(MSFFA-YOLO)网络,可以进行训练并且同时完成三项任务:可见度提升,目标分类,目标定位。这个网络使用yolov7作为子网络,负责学习定位和分类。在恢复网络中,MSFFA结构用来提升可见性。
Introduction
雾中某些交通物体的隐藏可能会对多类交通物体的准确检测构成重大障碍。
本文主要贡献如下:
- 提出了一个新的目标检测方法即MSFFA-YOLO,包括多尺度特征融合、特征注意力机制,增强YOLOv7对有雾天气的目标检测的准确性
- 我们提出的方法在物体定位和分类任务中取得了卓越的性能,同时也证明了其在雾天条件下检测隐蔽交通物体的优越准确性。
- 我们提出的方法可以在雾天提供准确可靠的交通物体信息,从而有助于交通调查,有助于提高交通安全和优化交通管理。
related works
some method:
- 使用合成雾数据集扩充训练数据,提高方法泛化能力
- 修改骨干网络或添加新模块以适应雾蒙蒙的场景
- 应用注意力机制或后处理技术抑制噪声并突出显著特征
Methods
Restoration Subnet
恢复子网络包括编码结构、特征转换结构、特征注意力结构、解码结构。可以采用CNN从图像中提取不同尺度的特征,然后使用残差连接来融合这些特征图。通过将特征注意力结构合并到恢复子网中,它使恢复子网能够在具有密集雾和重要信道信息的区域中表现出非凡的性能。
Encoder structure
关于编码结构,卷积操作可以表示为如下公式
Di是编码阶段第i层的特征图。Conven代表编码阶段的卷积。对于这种卷积,卷积核为33。卷积的步长为1,卷积后的通道数是前一个特征图的通道数的两倍。每次卷积操作后带一个ReLU。下采样操作,卷积核为22.
Feature Conversion Structure
为了实现网络精度和计算效率的平衡,特征转换结构包括18个两层残差块。两层残差块包括卷积层和ReLU函数。卷积核为3*3,步长为1。ReLU函数作为激活函数。特征转换结构的输入为编码结构的输出。
Feature Attention Structure
特征注意力结构包括通道注意力结构和像素注意力结构。通道注意力结构包括池化层、卷积层,ReLU函数,和sigmoid函数。像素注意力结构包括两个卷积层和一个ReLU函数、sigmoid函数。
关于通道注意力结构,计算步骤如下:
gc是输出特征图的第c个通道。Hp是池化函数。Fc是输入特征图的第c个通道。H是特征图的高,W是特征图的宽。Xc(i,j)是第C通道特征图的像素(i,j)的值。Conv是3*3的卷积。CAc是第c通道的权重。Fc是经过通道注意力结构的特征图。
关于像素级注意力结构:
PA是像素权重。
Decoder Structure
解码结构包括卷积层和上采样层。
Postprocessing Algorithm
关于原始算法,误检容易发生在交通目标密集的场景中,为了克服这种问题, 我们采用了Soft-NMS算法。算法如下:
Loss function
除了Yolov7的损失,MSFFA的损失也被引入。
损失如下:
N是整个图片的像素数量;p代表第p个像素;c代表第c个通道;
代表预测的第c个通道第p个像素值。
代表原图
Experiments