20230525——文献阅读《利用毫米波雷达和视觉传感器进行障碍物检测的空间注意力融合方法研究》（SAF-FCOS）

袁博特

已于 2023-06-01 14:52:14 修改

阅读量2k

点赞数 12

分类专栏：文献阅读文章标签：计算机视觉深度学习人工智能

于 2023-06-01 14:50:31 首次发布

原文链接：https://www.semanticscholar.org/paper/Spatial-Attention-Fusion-for-Obstacle-Detection-and-Chang-Zhang/cc183eba49f926d84b3a401490c819be64b9b222

版权

文献阅读专栏收录该内容

6 篇文章

订阅专栏

论文标题：
Spatial Attention Fusion for Obstacle Detection Using MmWave Radar and Vision Sensor
发表期刊/会议：
sensors 2020
下载地址：
https://www.semanticscholar.org/paper/Spatial-Attention-Fusion-for-Obstacle-Detection-and-Chang-Zhang/cc183eba49f926d84b3a401490c819be64b9b222
代码地址
https://github.com/Singingkettle/SAF-FCOS

个人理解

研究目标（提出问题）

小目标、恶劣天气中，视觉传感器的应用并不是很适合；毫米波雷达的点云比较稀疏，但是能够穿透雾、烟和其他遮蔽物。二者可以互补。
分析了决策级融合、数据级融合的缺点，认为特征级融合挺好，但是雷达和相机的特征融合的时候，雷达点云是稀疏的。且已发表的传感器融合检测方法中使用的特征融合块非常简单
将nuScenes数据集中3D bounding boxes转换为2D标注后，车辆中存在多个bounding boxes，而这对于CNN模型来说是混淆标注
雷达点不能直接被CNN网络使用

研究方法的优缺点（分析解决问题）

所以认为本文是具有研究意义的，是有根的。（从研究主体上去证明研究意义）
提出了一种特征级空间注意融合(spatial attention fusion, SAF)方法，该方法可以有效地将雷达特征图与视觉特征图进行融合，提高小、中、大尺度下的检测性能。
利用ResNet-101作为特征提取骨干，通过FCOS增强版生成2D注解
受[11]论文的启发，我们对雷达图像生成模型进行了重新设计，并对雷达图像平面中物理状态转换为像素值的方法进行了一些修改。提出了一种改进的雷达信息生成模型，将雷达信息转换为RGB图像，作为SAF块的输入数据;

展望（存在的问题以及可能解决的思路）

很有想法，不过有点偏工程化

杂谈（瞎说八道）

1

文章通过分析相机和毫米波雷达以及激光雷达，得出了这个结论，很有意思。

在利用视觉传感器和毫米波雷达的优点时，两者是相辅相成的。

阅读前知识准备

1.理解add和concat之多层特征融合

在这里插入图片描述

concat作用
concat是通道数的增加，也就是说描述图像本身的特征数（通道数）增加了，而每一特征下的信息是没有增加；横向或纵向空间上的叠加.
add作用
add为简单的像素叠加,是描述图像的特征下的信息量增多了，但是描述图像的维度本身并没有增加，只是每一维下的信息量在增加，这显然是对最终的图像的分类是有益的。
因此，add相当于加了一种prior，当两路输入可以具有“对应通道的特征图语义类似”（可能不太严谨）的性质的时候，可以用add来替代concat，这样更节省参数和计算量（concat是add的2倍）。
深度特征融合—理解add和concat之多层特征融合
 卷积中add与concat操作区别及作用

2. 多模态的几种融合方法

前面的文章，提到过一种多模态的融合分类方法。

前融合（early fusion）：下图(a)，直接融合原始的或经过一定前处理的传感器数据。前融合的优点——充分利用了原始数据中的信息量、同时处理多个传感器可以降低整体运算和内存消耗。缺点是——对传感器数据的对齐（空间和时间上对齐）敏感、模型的灵活性下降；
后融合（late fusion）：下图(b)，对每一个模态的检测/识别结果进行融合。后融合的优点——高度灵活和模块化，引入一个新的模态不会对原有网络产生影响。缺点是——高运算和内存消耗，并且丢失了大量对于模态融合有益的中间信息；
中间融合（middle fusion）：在模型的特征层上，对不同模态数据被处理出的特征进行融合。下图的©(d)(e)均为中间融合的不同方式。

在本文中，提到了另一种分类方法。

数据级融合（data-level fusion）
决策级融合（decision-level fusion）
特征级融合（feature-level fusion）
应该只是叫法不同而已。
多模态的几种融合方法

3. 召回率

首先明确缩写。

TP (True Positive) : 将正类预测为正类数
FN (False Negative) : 将正类预测为负类数
FP (False Postive) : 将负类预测为正类数
TN (True Negative) : 将负类预测为负类数

其次给出计算公式

准确率(accuracy) = 预测对的/所有 = (TP+TN)/(TP+FN+FP+TN)

精确率(precision) = 预测结果中的正例中有多少是预测正确的 = TP/(TP+FP)

召回率(recall) = 样本中的正例中有多少被预测正确 = TP/(TP+FN)

通俗意思解释

准确率(accuracy):就是预测结果对了多少（最直白的意思，也是大家普遍认为的正确率）
精确率 (Precision):你认为的该类样本,有多少猜对了(猜的精确性如何)。
召回率 (Recall):该类样本有多少被找出来了(召回了多少)。

在这里插入图片描述

在这里插入图片描述
如何解释召回率与精确率？——Charles Xiao的回答

4. 什么是one-stage目标检测算法？

one-stage目标检测算法（也称one-shot object detectors），其特点是一步到位，速度相对较快。另外一类目标检测算法是two-stage的，如Faster R-CNN算法先生成候选框（region proposals，可能包含物体的区域），然后再对每个候选框进行分类（也会修正位置）。这类算法相对就慢，因为它需要多次运行检测和分类流程。而one-stage检测方法，仅仅需要送入网络一次就可以预测出所有的边界框，因而速度较快，非常适合移动端。最典型的one-stage检测算法包括YOLO，SSD，SqueezeDet以及DetectNet。
深入理解one-stage目标检测算法

5. 什么是default boxes？

SSD的先验框叫做default boxes。

6. 什么是Anchors？

定义

Anchors，锚，先验框。
Anchors是一种在one-stage目标检测算法中的约束，用来帮助模型对于物体形状做出更好或是更方便的预测。

yolo与SSD中的先验框

下面给出yolov2和v3中的anchors

anchors = [1.19, 1.99,     # width, height for anchor 1
           2.79, 4.60,     # width, height for anchor 2
           4.54, 8.93,     # etc.
           8.06, 5.29,
           10.33, 10.65]

先验框描述数据集中5个最常见（平均）的物体形状。这里的“形状”指的是它们的宽度和高度，因为在目标检测种总是使用基本的矩形。有5个先验框并非偶然。网格单元中的每个检测器都有一个先验框。就像网格对检测器施加位置约束一样，先验框迫使检测器专门处理特定的物体形状。
先验框只是一个宽度和高度集合，而且它们是事先选择的，所以YOLO纸也称它们为“dimension priors”（Darknet，官方的YOLO源代码，称它们为“biases”，也是比较合理 - 检测器偏向于预测某个形状的物体，但是这个术语令人困惑）。
SSD的先验框叫做default boxes。
SSD和YOLO的先验框设置，到底哪种方式比较好，并没有定论。另一个小差异是：YOLO的先验框只是宽度和高度，但SSD的先验框也有x，y位置。其实，YOLO也包含位置，只是默认先验框位置始终位于网格单元格的中心（对于SSD，先验框也是在网格中心）。

先验框的作用

由于先验框，检测器仅预测相比边界框的偏移值，这使得训练更容易，因为预测值全为零时等价于输出先验框，平均上更接近真实物体。如果没有先验框，每个检测器都必须从头开始学习不同的边界框形状，这相当困难。
深入理解one-stage目标检测算法

7.什么是LCA？

LCA（Lobe Component Analysis）：叶成分分析
前面提到的CCIPCA可以算作翁巨扬教授提出的第一个心智发育框架IHDR的核心算法，而LCA则是他现阶段提出的where-what-network框架的核心算法，也即是他提到的发育网络的“基因”组成。

CCIPCA对应于PCA（主成分分析）算法，是PCA算法的增强版，使得计算算法在计算判别空间的特征向量时，covariance-free，且学习过程为在线增量式的学习。CCILCA则对应于ICA（独立成分分析），是ICA算法的增强版。这里说明一下，主成分分析与独立成分分析的最大不同之处在于：PCA得到的特征向量是彼此之间相互正交的，也即是正交分解，ICA得到的特征向量则不必两两间正交，实际上，特征向量也不必满足严格正交关系。
LCA（Lobe Component Analysis）：叶成分分析

7.什么是MILN？

MILN：多层在位学习网络
MILN(multilayer In-place Learning Network)应该是继LCA算法提出后，翁巨扬教授提出的第一个发育网络（developmental network），旨在提出一种通用的在位学习（ In-place Learning）网络来模拟大脑皮层抽取特征。在位学习是一种来自于基因等效性原则的生物学概念，每一个神经元都采用共同的基因程序（LCA），独立负责自身在环境中的学习。一般来说，在位学习具备简单、计算复杂性低等优点。

MILN：多层在位学习网络

正文

摘要

对于自动驾驶来说，为了安全起见，在各个尺度上准确地检测障碍物是非常重要的。
本文提出了一种新的基于毫米波雷达和视觉传感器的空间注意融合(SAF)方法，该方法考虑了雷达点的稀疏性。该融合方法可以嵌入到特征提取阶段，有效地利用了毫米波雷达和视觉传感器的特征。
在此基础上，提出了一种基于注意力权重矩阵的视觉特征融合方法，不同于concatenation fusion 和 element-wise add fusion。
此外，所提出的SAF可以通过端到端方式结合最近的深度学习目标检测框架进行训练。
此外，我们建立了一个生成模型，将雷达点转换为雷达图像进行神经网络训练。
数值结果表明，该融合方法在公共基准测试中具有较好的性能。此外，源代码将在GitHub中发布。

1 引言

在自主系统的应用中，在所有条件下对周围环境的准确理解对于安全考虑是很重要的。一般情况下，自动驾驶汽车需要准确估计障碍物的位置，并做出路径规划的决策。自动驾驶汽车的输入数据来自各种传感器，如毫米波雷达、视觉传感器、激光雷达等，通过精心设计的识别算法进行感知。然而，不同的传感器的性能和价格是不同的。在实际应用中，应考虑两者的差异，设计出适用的融合方案。图1描述了图像平面中雷达点和LiDAR点的一些绘制示例。（毫米波雷达便宜是一个需要大书特书的优点，但是貌似现在的激光雷达也很便宜了）。
在这里插入图片描述
对于视觉传感器，可以保存目标的外观信息。它们还可以提供精确的横向测量。出于安全考虑，感知算法应从视觉图像中推断出障碍物在各个尺度上的二维位置。然而，小目标在图像中所占的像素非常少，容易受到背景噪声的影响[1-6]。虽然基于特征金字塔的检测模型可以提高对小目标的检测精度[7-10]，但对于自动驾驶的安全性和实用性考虑，该模型还远远不够完善。此外，在雨、雪、雾、夜等恶劣天气条件下，障碍物的出现容易被模糊，使得感知算法难以将目标与背景区分开。（也就是小目标、恶劣天气中，视觉传感器的应用并不是很适合）。
与视觉传感器不同，使用短波电磁波的毫米波雷达(mmWave radar)是自动驾驶中常见的一类特殊雷达技术。该雷达系统发出电磁波信号，然后被物体在其传播路径上反射。通过捕捉反射信号，雷达系统可以确定目标的距离、速度和角度。与激光雷达相比，毫米波雷达具有更长的探测范围。此外，毫米波雷达比红外传感器更能穿透雾、烟和其他遮蔽物。顺便说一下，毫米波雷达比激光雷达便宜。然而，毫米波雷达的雷达点太少，无法有效地突出障碍物的边界。此外，毫米波雷达的横向分辨率有限。在利用视觉传感器和毫米波雷达的优点时，两者是相辅相成的。（这一段认为毫米波雷达和相机是相辅相成的，很有意思）。
因此，毫米波雷达与视觉传感器融合的障碍物检测是一个很有前途的方向。一般来说，使用毫米波雷达和视觉传感器的融合方案主要有三种，如图2所示。它们分别是决策级融合、数据级融合和特征级融合。图2所示的雷达图像上的斑点是雷达传感器本身返回的检测信号。这些雷达图像是受[11]工作的启发，重新设计的雷达图像生成模型生成的。（这一段提到了多模态融合的分类方法的叫法）。
在这里插入图片描述
第一种融合方案在决策层起作用。将雷达和视觉传感器的预测结果融合，生成最终结果[12-24]。然而，这两种预测结果都涉及到不同的检测噪声。因此，很难对联合检测概率密度函数进行建模，而这对于在决策层设计融合滤波算法具有重要意义。在实际应用中，决策级融合对检测性能的提高是有限的，且计算成本较高。（决策层融合的缺点是计算成本高，但是主要是因为性能提高有限。）。
对于数据级融合方案[25-34]，首先，我们可以根据相机坐标中的雷达点生成感兴趣区域(region of interest, roi)。然后，根据生成的roi在输入视觉图像中提取相应的图像patch。最后，我们可以使用feature-extraction模型和classification模型来判断提取的图像patch中是否存在障碍物。有效雷达点的个数无疑会影响检测召回率。当图像平面的某一子区域没有雷达点时，该区域的障碍物被数据级融合方案描述的整个检测管道完全忽略，无法检测到。因此，目标检测召回率的理论值受到限制。而数据级融合方案可以根据毫米波雷达的信息缩小相机坐标中的搜索区域，节省了计算资源。因此，出于安全考虑，在自主系统中采用数据级融合方案并不是一个好主意。（数据级融合的方案中，通常会利用雷达点生成ROI，减少目标检测的区域，从而减少计算量，但是很可能就会出现漏检的情况，所以，本文提出，如果出于安全的考虑，那么数据级融合不是一个很好的方法）。
特征级融合方案[11,35,36]是近年来比较流行的一种融合方法。通常，特征级融合方案将雷达点从三维世界转换为二维图像平面。雷达点所反映的深度和速度以像素值的形式存储在变换后的雷达图像中。生成的雷达图像示例如图2所示。它具有多通道，不同的通道对应着周围环境的不同物理状态，由雷达传感器测量。因此，对于同一行车场景，可以得到两种图像：雷达图像和视觉图像。更重要的是，在视觉图像和雷达图像的基础上，CNN可以从两者中提取信息。所设计的基于特征级融合方案的cnn检测模型可以学习雷达和视觉数据之间的关系，是同时利用雷达和视觉信息的最有效方法。（特征级融合的方案中，将雷达投影到视觉图像中，从而得到radar image和vision image这两个东西，并分别提出特征，然后将两者进行融合。从而得到ROI，并最终实现目标检测。）。
在Simon et al.[11]的开创性工作中，首次提出了采用特征级融合方案的CNN检测模型，其中检测模型的框架受到了SSD[2]检测方法的启发。特征级融合方案[11]是雷达特征图与视觉特征图之间的逐元素添加操作。然而，基于元素的添加操作并不适用于异构的特征映射，这在我们的实验中得到了证实。此外，针对雷达点的稀疏性问题，设计了一种自动生成模型，将雷达信息转换为三维矩阵，方便作为CNN检测方法的输入数据。但雷达图像生成模型[11]的细节尚不清楚。在本文中，我们重现了该生成模型，并对如何将雷达点的物理状态转换为雷达图像中相应的像素值做了一些修改。（本文复现了文献11的雷达图像生成模型，并进行了一些修改。具体是哪些修改还没有说，等到后面再看看吧，先埋个雷）。此外，在雷达图像生成模型中，我们做了大量的实验来选择最优的超参数，这是基于检测性能的提高。（这句话的意思就是，我们的超参数的选择是根据检测结果来的）。受基于CNN的特征融合方案的启发，John等人[35]也提出了一种基于YOLO[1]检测框架的CNN特征融合检测模型。更重要的是，在[35]的工作中，作者证明了基于雷达和视觉的特征融合方案优于其他融合方案。（文献【35】证明了毫米波雷达和视觉的特征级融合方案比其他的融合方案好）。在[36]的工作中，作者提出了CameraRadarFusionNet (CRF-Net)来学习在哪个级别的传感器数据融合最有利于检测任务。此外，他们还引入了一种名为BlackIn的训练方法，以确保模型训练的收敛性。（联动了，CRF-Net也出来了。CRF-Net可以通过网络学习到底在哪个层次上进行融合效果是最好的，也就是自动化了）。
与上述方案相比[11,35,36]，本文提出了一种特征级空间注意融合(spatial attention fusion, SAF)方法，该方法可以有效地将雷达特征图与视觉特征图进行融合。众所周知，雷达点反映了自动驾驶汽车周围环境的物理状态。因此，如果视觉图像区域与雷达点相对应，则出现障碍的概率较大。在此基础上，我们设计了一个CNN子网络，提取空间注意信息作为控制信号，融合视觉特征图。该子网络的输入数据为雷达图像，由改进的雷达图像生成模型生成。对于SAF，它主要由不同接收域的卷积层组成。为了确定卷积层的最有效组合，我们在验证集上使用不同的SAF配置进行了大量的实验。考虑到检测速度，我们在全卷积 one-stage目标检测框架(FCOS)[10]的基础上构建了SAF，该框架思想简单，检测精度高，是目前检测界非常流行的框架。（这一段介绍了本文所提出的SAF方法的来龙去脉，主要是在FCOS的基础上构建的）。
训练数据采用nuTonomy scenes (nuScenes)[37]数据集。根据nuScenes[37]的建议，将nuScenes数据分为训练数据集、验证数据集和测试数据集，分别有700个场景、150个场景和150个场景。但是，由于标记的bounding boxes是三维的，不适合本文所使用的检测主干——二维检测框架FCOS。因此，我们应该将3D标记的bounding boxes转换为2D标注。图3描述了一些结果。
在这里插入图片描述
如图3的第一行所示，我们可以注意到，即使车辆被其他车辆遮挡，车辆仍然被标记。将3D bounding boxes转换为2D标注后，车辆中存在多个bounding boxes，而这对于CNN模型来说是混淆标注。（也就是说，一个物体上面有多个BBox是不行的）。为此，我们利用ResNet-101作为特征提取骨干，通过FCOS增强版生成2D注解(生成二维注解的FCOS模型训练配置文件为fcos_imprv_dcnv2_X_101_64x4d_FPN_2x.yaml。在最小COCO数据集[38]中AP=46.6。FCOS型号[10]的详细信息，请访问GitHub[39])，运行速度非常慢，精度非常高。（2D注解生成的速度很慢，但是精度很高，这个精度是怎么评价的呢？）。此外，FCOS生成的2D注释都经过人类的粗略检查和调整。与[11]的工作类似，我们只保留生成的带有自行车、汽车、摩托车、公共汽车、火车、卡车等类别标签的2D标注，将它们统称为障碍类别。因此，有六类物体被视为道路上的障碍。对于行人，由于行人的雷达信号较差，我们没有考虑，这与[11]是一致的。（行人的雷达反射面太小了，还得是车辆才行）。
本文的主要贡献如下:

在FCOS视觉检测框架的基础上，提出了一种融合雷达数据和视觉数据的空间注意力融合块(SAF);
生成nuScenes数据集的二维标注，用于模型训练和推理;
提出了一种改进的雷达信息生成模型，将雷达信息转换为RGB图像，作为SAF块的输入数据;
对雷达图像生成模型中涉及的超参数进行了大量的实验选择;

本文的其余部分组织如下。第二节回顾了相关工作。第三节详细阐述了改进后的雷达图像生成模型和视觉图像中二维标注的标注过程。然后第4节给出了利用毫米波雷达和视觉进行障碍物检测的SAF模块的实现细节。接下来，第5节提供了训练细节和数值结果。最后，第六部分对本文进行了总结。

2 相关工作

2.1 视觉传感器的目标检测

对于CNN中视觉传感器对目标的检测，有两种检测器：两级检测器（two-stage detector）和单级检测器（one-stage detector）。R-CNN[3]最初是通过将分割算法[40,41]整合到AlexNet[42]中，以实现对于region proposals的分类。为了提高检测速度，SPPNet[5]提出了一个空间金字塔池化层来重用feature maps的 region proposals。与SPPNet类似，Fast R-CNN[4]通过将分割算法整合到特征级来重用feature maps。此外，提出了一种新的ROI池化层，将任意有效感兴趣区域转换为具有固定空间范围的feature maps。Ren et al.[6]没有使用分割算法生成目标proposals，而是在Fast R-CNN上提出了一个region proposal网络(region proposal network, RPN)来生成目标候选，称为Faster R-CNN。（这一段对于R-CNN SPPNet Fast R-CNN Faster R-CNN这4个算法的历史渊源介绍还是很详细的）。
为了实现较快的运行速度，提出了单级检测器（one-stage detector）[1,2,8 - 10]。单级检测器在密集预定义的规则目标位置上进行bounding box回归和分类。（one-stage就是要在众多的预测框中挑选最高置信度的一个作为结果，所以这里叫他dense）。在[1]的工作中，提出了YOLO算法，对作为相机坐标子区域的网格单元进行bounding boxes和置信度预测。为了提高单级检测器（one-stage detector）的精度，Liu等人[2]将bounding boxes的输出空间离散为一组默认boxes，在每个feature maps位置上的不同纵横比和比例，称为SSD。SSD模型可以利用多个feature maps进行目标检测。然而，在训练过程中，极端的前景-背景类不平衡是阻碍单级检测器达到最先进的精度的主要瓶颈。在[8]的论文中，Lin at .引入了一种新的动态尺度交叉熵损失，当正确类的置信度增加时，尺度因子衰减到零。与SSD相比，Lin et al.[7]开发了一种带有横向连接的自顶向下架构，用于在所有尺度上构建高级语义feature maps。上述单级检测器均为anchor-based检测模型。在没有anchors和region proposals的情况下，Tian et al.[10]提出了一种全卷积one-stage目标检测器，以解决逐像素预测中的目标检测问题，类似于语义分割。更重要的是，FCOS[10]不仅在精度和速度上优于two-stage算法Faster R-CNN，而且易于理解。
虽然基于CNN的视觉传感器检测方法[6,7,10]在VOC[43]和MS COCO[38]数据集上取得了最先进的性能，但当障碍物因恶劣天气或障碍物尺寸较小而外观模糊时，这些目标检测模型的性能有限。此外，利用雷达和视觉传感器的融合方案是提高自主系统检测性能的一个很有前途的方向。因此，本文采用FCOS检测框架作为雷达与视觉传感器融合的检测网络的backbone。

2.2 基于决策级融合的目标检测

对于使用毫米波雷达和视觉传感器的决策级融合，Langer等人[12]描述了一种用于自主道路导航的集成毫米波雷达和视觉传感器系统。为了准确地检测和分类障碍物的危险，他们还提出了一个基于视觉的车道保持系统。为了组合不同的传感器(激光、雷达和视觉)，Coué等人展示了使用概率推理技术来解决具有挑战性的多传感器数据融合问题的兴趣。然而，[13]中提出的融合方法依赖于传感器设备、算法或应用系统的特定组合。它应该注意到，将会有许多新的传感器和升级的识别算法，这将导致大量的组合。为了解决这一问题，Kawasaki等人提出了一种可以动态融合的贝叶斯网络。
与[13,14]相反，Cesi´c´et al.[15]提出了一种针对特殊欧氏群的雷达和立体视觉传感器[16]决策融合方案。对于多目标跟踪，采用基于矩阵李群的联合集成概率数据关联(JIPDA)滤波器[44]。为了利用立体摄像机和雷达的优势，Wu等人利用扩展卡尔曼滤波(EKF)融合了不同传感器的检测结果，可以解决准确估计威胁车辆的位置、大小、姿态和运动信息的问题。由于行人的雷达信号较差，Chavez-Garcia et al.[18]仅将LiDAR和vison传感器融合在一起进行最终决策。而在[18]中，使用雷达、激光雷达和视觉三种传感器进行车辆检测。为了恢复场中每个目标的三维速度，Zhong等人[19]建立了三维速度合成模型，利用雷达和视觉传感器的融合结果估计速度矢量。相对于卡尔曼滤波和贝叶斯融合方法，Kim et al.[20]提出了一种信息融合方法。此外，他们的雷达信号处理算法继承自[45]。（这里提到了可以使用EKF实现融合。此外实现对目标的速度估计也是一种研究方向）。
由于雷达和视觉传感器是异步的，因此在进行融合操作前对时间数据进行对齐是非常关键的。在[21]中，Steux等人实现了一组滤波器来插值雷达和视觉输出，以实现数据对准。与[21]相比，Streubel等人[22]引入了融合时隙，在融合跟踪之前，对出现在同一时隙中的相机和雷达的所有目标进行测量到测量数据关联验证。对于本文使用的nuScenes[37]数据集，设计了传感器同步采集系统进行数据采集，一般情况下数据对准效果较好。（时间同步很重要，可以设计一些方法来确保时间的对齐）。
为了帮助视障人士，Long等人[23]提出了一种融合毫米波雷达和rgb深度传感器的辅助导航。他们使用MeanShift[46]算法来检测深度图像中的对象。此外，检测目标的距离由感兴趣区域的平均深度决定。在增强版[24]中，他们对视觉数据处理进行了一些改进，其中Mask R-CNN[47]用于对象检测。

2.3 基于数据级融合的目标检测

在所有的融合方案中，数据级融合方案是性价比最高的计算方法。一般来说，用于目标检测的数据级融合方案可以概括为两个步骤。

在第一步中，从雷达传感器生成目标列表。列表中的项目是对障碍呈现的假设。
第二步，视觉系统验证假设。

此外，所有数据级融合的方法主要在第二步的实现细节上存在差异。（不同数据级融合的方法的研究重点是放在了，视觉验证雷达所预测的目标这一环节）。
Milch et al.[25]使用灵活的二维轮廓先验模型来识别和跟踪视觉图像序列中的行人。在[26]的论文中，Bombini等人提出了一种基于对称性的车辆检测算法，其中雷达数据提供了感兴趣的区域。考虑到自动驾驶汽车的安全性，[27]的论文也将护栏加入到检测考虑中。
对于视觉传感器处理中涉及到的特征提取和候选分类，Kadow等人[28]使用了类harr滤波器作为特征提取模型。利用Haar-like模型提取特征向量后，采用AdaBoost算法进行假设生成。此外，该假设被进化优化和生物驱动的汽车识别系统验证。为了提高Haar-like模型在自动驾驶中的表达能力，Haselhoff等人[29]对直方图均衡化、灰度方差和对比度归一化进行了一系列测试。在测试图像中，对比度归一化的性能最好。一般来说，每个候选区域的像素可能包含一些与物体无关的信息，例如物体背后表面的属性或噪声。针对这一情况，Ji等人[30]利用方向选择性滤波器进行特征提取，实现稀疏编码，这些特征提取是通过LCA算法[48]从自然图像中生成的。此外，利用多层就地学习网络来区分不同对象的稀疏表示。
因为雷达信号在图像平面上定义的ROI远大于被测位置上的投影目标。此外，目标高度不能被雷达测量。Serfling等人使用级联分类器融合原始传感器数据，这是一个稳健可靠的夜间行人识别系统。与[31]相比，Kato等人[32]引入了一种运动立体视觉技术，借助雷达测量的距离来找到障碍物的边界。
为实现雷达视觉坐标标定，Wang等[33]提出了一种操作简便、无雷达反射强度的雷达视觉点对准实验方法，并提出了特殊的工具要求。为了简化雷达与视觉传感器之间的标定，Guo et al.[34]采用了一种简单的方法来获取变换矩阵。在本文中，我们的模型训练数据集nuscenes[37]提供了各传感器单元之间的转换矩阵。因此，我们不需要做传感器校准步骤。（这里提高了2篇关于雷达和相机标定的文章）。

2.4 基于特征级融合的目标检测

与基于视觉传感器的检测方法相比，采用特征融合方案的检测模型可以显著提高恶劣天气下小型车辆的检测成功率。在[11]的工作中，Simon等人首先使用cnn网络进行mmWave雷达与视觉信息的融合，其中检测网络的backbone是基于SSD[2]框架。视觉数据的特征提取主干来自ResNet块[49]，这是一个18层ResNet变体。为了使雷达点能够在SSD框架中使用，他们提出了一种雷达图像生成模型，将雷达点转换为图像，便于作为卷积神经网络的输入数据。此外，在雷达与视觉传感器融合后的特征图上构建其预测头。因此，有两个输入支路和一个输出支路。对于雷达图像，他们用雷达数据做了两种实验。第一个是在SSD检测框架中增加了一个用于生成雷达图像的分支。然后，将雷达图像的特征图与ResNet分支的第二个输出连接起来。对于第二种方法，使用了相同的附加分支，但没有使用max-pooling层。在那之后，一个element-wise addition被用来融合第一个ResNet分支之后的特性。基于评估结果，他们发现小型、中型和大型车辆都可以受益于该特征融合方案。第二种融合方法在所有指标上都优于第一种融合方法。与决策级融合方案和数据级融合方案相比，特征级融合方案增加的计算资源消耗可以忽略不计。但是，[11]中使用的特征融合块非常简单，但雷达点的稀疏性并没有很好的进行相应的处理。
与[11]相比，John等人[35]提出了一种新的基于深度学习的传感器融合框架，称为“RVNet”。RVNet是一个具有两个输入支路和两个输出支路的单镜头目标检测网络。考虑到速度，他们构建在YOLO[1]框架上。将RVNet的两个输入分支与单目摄像机和雷达传感器相关联。对于输出的两个支路，该网络分别包含小障碍物和大障碍物的独立支路。对于雷达特征图与视觉特征图的融合，RVNet采用串联神经网络层，与[11]中使用的第一种方法相同。但是RVNet中的两个输出分支可以引入更多的权值进行模型学习，更容易出现过拟合。此外，RVNet的计算资源消耗要大于[11]提出的融合检测模型。
为了确定雷达数据和视觉数据的融合对检测性能最有利，[36]的工作提出了CameraRadarFusionNet (CRF-Net)来自动学习这些知识。此外，受深度学习方法中的Dropout层的启发，他们引入了一种新的训练策略，将学习集中在一种被称为BlackIn的特定传感器类型上。在实际工作中，[36]使用nuScenes数据集进行模型训练、验证和推理，与我们的工作相同。此外，为了过滤雷达点所涉及的噪声，他们引入了一种ground-truth噪声滤波器，以提高融合检测模型的性能。顺便说一下，他们的神经网络架构建立在RetinaNet[8]上，在[50]中实现了VGG骨干网[51]。从nuScenes测试数据集的评价结果来看，基线图像网络的平均精度为43.47%，而CRF-Net的平均精度为43.95%。综上所述，检测性能的提高是有限的。对于[36]中使用的特征融合块，在CRF-Net中采用逐元素加法作为融合操作，这与[35]不同。
总之，已发表的传感器融合检测方法中使用的特征融合块非常简单。本文提出了一种空间注意融合(SAF)块来学习雷达数据与视觉数据之间的关系，可以提高小、中、大尺度下的检测性能。

2.5 基于混合融合的目标检测

此外，有些算法使用的融合方案不止一种[52-55]。Lindl et al.[52]提出了一种3级early fusion方案，用于融合一个远红外成像设备、一个激光扫描仪和多个雷达传感器。他们采用了来自Hopcroft的数据关联算法来融合不同传感器的检测结果。在[53]的工作中，视觉传感器中使用的ROIs是由激光点生成的。此外，将雷达、摄像机和激光雷达的检测结果进行融合。同时采用决策级融合和数据级融合。Wang et al.[54]提出了一种基于决策级融合和数据级融合的车辆检测与跟踪算法。首先，雷达信号为视觉传感器提供感兴趣区域的定位和大小。然后将视觉生成的目标轨迹与雷达生成的目标轨迹进行对比和验证，验证检测跟踪的有效性。在[55]的工作中，采用了不同的特征提取模型和分类算法对视觉传感器的数据进行处理。

3 训练数据集

在本文中，我们使用nuScenes数据集[37]进行模型训练。该数据集是首个搭载全自动驾驶汽车传感器套件的数据集：6个摄像头、5个雷达和1个激光雷达，都具有全360度视场。关于不同传感器的详细信息，请参考[37]的论文。一般来说，相机的分辨率为1600 × 900，雷达为77GHz FMCWmmWave雷达。雷达的探测距离≤250m。nuScenes数据采集平台的传感器设置可以在他们论文[37]的“图3”中找到。在传感器标定方面，借助激光衬垫和标定靶板等工具，表示每个传感器相对于自我坐标系的外部坐标，即后轴的中点。在我们的模型训练中，只使用前摄像头和前雷达建立基于FCOS[10]框架的特征融合检测模型。基本上，单个雷达点有nuScenes[37]数据集中定义的18个物理状态，包括位置、速度、rcs等。我们只使用位置和速度信息，而不使用其他物理状态。
原来的雷达点不能直接被CNN网络使用。受[11]论文的启发，我们对雷达图像生成模型进行了重新设计，并对雷达图像平面中物理状态转换为像素值的方法进行了一些修改。图4显示了整个生成过程。首先，将三维雷达坐标中的雷达点通过函数Xi = XrR + T转换为前摄像机的摄像机坐标，输入数据为Xr，表示雷达坐标中的三维位置信息。利用标定矩阵R(旋转矩阵)和T(平移矩阵)，可以得到雷达点在摄像机坐标中的位置Xi。变换后，我们将深度d，纵向速度vx和横向速度vy转换为不同通道(R,G,B)的真实像素值。这三个转换方程定义如下:
在这里插入图片描述
对于没有雷达点的未知区域，其在不同通道中的像素值均为0。在下一代步骤中，在雷达图像中呈现一个半径为r像素、颜色如式(1)所示的实心圆，实心圆的圆心为雷达点位置转换为摄像机坐标后的位置。如图4所示，蓝色实圆为单个雷达点的渲染结果。对前摄像头图像平面定位范围内的所有雷达点进行处理后，生成的雷达图像就生成了。它的尺寸和前置摄像头一样，也是1600 × 900的分辨率。
在这里插入图片描述
顺便说一下，在雷达图像生成模型中涉及到的渲染案例有两种，如图5所示。当雷达点M到雷达点N的距离l大于渲染半径r的2倍时，将其绘制过程描述为渲染案例a。当雷达点M到雷达点N的距离l小于渲染半径r的2倍时，如果用渲染半径r来渲染，它们之间会有重叠的区域。在这种情况下，我们应用一个不同的渲染规则:如果雷达点M的深度dM小于雷达点N的深度dN，则渲染过程如图B所示。基本上，渲染案例B的渲染规则是受到“近远小”法则的启发。因此，当两个雷达点之间存在重叠区域时，深度较小的雷达点应占据较多的区域。另外，生成的雷达图像必须保存为png格式。如果以jpg格式保存，可能会引入一些噪声，实验结果也证实了这一点。（这，太工程了吧）。
在这里插入图片描述
对于障碍物的2D标注，我们没有使用nuScenes数据集[37]提供的工具将3D bounding boxes转换为2D标注。因为由3D注释转换的2D注释没有很好地标记，这可以在图3中注意到。相反，我们通过ResNet-101的FCOS增强版生成2D注释。此外，所有生成的2D注释都由我们进行粗略的检查和调整。（本文没有使用nuscenes提供的工具将3Dbbox转为2D，本文认为他不够好，而是选择使用FCOS进行转化）。

4 提出的算法

在本节中，我们全面介绍了我们提出的基于空间注意力融合的目标检测全卷积one-stage网络(SAF-FCOS)。该算法利用一个SAF块来合并雷达和视觉传感器的特征图。为了分析所提出的SAF块，我们做了大量的对比实验来验证它的优越性。总体检测框架如图6所示。
在这里插入图片描述

4.1 检测框架

我们提出的特征融合检测模型是基于FCOS框架 [10] 的。主要包括五个部分:Radar Branch(雷达图像特征提取模型)、Vision Branch(视觉图像特征提取模型)、SAF块、Fusion Branch(基于融合特征映射的特征提取)和RetinaNet8。
雷达分支是改进的ResNet-50[49]。它有两个卷积块:R-Stem和R-Block1。R-Stem是ResNet-50的原始stem模块，用于处理输入数据。R-Block1类似于ResNet-50的第一阶段，但它只有一个残留块，而ResNet-50有3个残留块。这是因为如果在第一阶段引入三个残差块作为ResNet-50，整个检测模型很难通过随机梯度下降进行更新。此外，在早期的迭代中，损失函数的输出值总是“nan”。更糟糕的是，即使我们多次重新启动训练代码，我们也不能轻松地训练SAF-FCOS模型。但是，当我们将第一阶段的残差块数设为1时，我们可能需要进行几次重新启动训练码的尝试，以帮助检测模型摆脱损失中的“nan”。我们认为这是因为对于稀疏的雷达图像，残差块过多是不适合的。减少残差块，节省计算资源。对于视觉图像的特征提取，也有两个操作块:V-Stem和V-Block1，与ResNet-50中的stem模块和第一阶段块相同。
对于SAF块，将雷达图像的特征映射编码为空间注意力权重矩阵。然后，利用空间注意力矩阵对视觉传感器提取的特征图沿各通道进行加权。然后，利用Fusion Branch中的Block2、Block3和Block4提取雷达和视觉传感器的融合特征图，得到多尺度特征图，其中所有的块在ResNet-50的backbone中都是相同的阶段，在FCOS[10]框架中使用(我建议阅读FCOS的源代码来了解整个框架的细节。此外，“fcos_core/modeling/backbone/”文件夹中的python文件resnet.py应该是第一个启动。)
为了达到更好的检测性能，使用RetiaNet[8]的FCOS[10]进行最终结果预测，如图6最后部分所示。另外，损失函数定义为FCOS [10]:
在这里插入图片描述

4.2 空间注意力融合

众所周知，在自动驾驶汽车中，雷达点反映的是周围环境的物理状态。因此，利用雷达点作为门单元来控制视觉传感器提取的信息流是一种有效的方法。我们希望能够增强小物体和模糊物体的信息流，提高检测的召回率。对于容易分类的物体，雷达点也有积极的影响。更重要的是，本文提出的融合检测方法还考虑了没有雷达点的区域，这与数据级融合方案不同。（还考虑没有雷达点的区域，这种操作有点奇怪！和常见的数据级融合方案确实不同）。
基于上述分析，我们提出了一种空间注意力融合(SAF)块来生成二维矩阵，以重新加权视觉分支在所有通道上的特征图。
图7d展示了所提出的SAF的总体结构。
在这里插入图片描述
我们提出的SAF由三组卷积层组成，用于提取空间注意力矩阵。“Conv 1×1”层中的配置意味着内核大小1×1×256×1, 步长(1,1)，填充[0,0]。“Conv 3×3”和“Conv 5×5”层的配置分别为{3 ×3 × 256 × 1，(1,1)，[1,1]}和{5 ×5 × 256 × 1，(1,1)，[2,2]}。考虑到三个卷积层的配置，雷达特征图中的通道数减少到1，而输出注意矩阵具有与视觉特征图相同的高度和宽度。通过引入三种不同的卷积层，我们希望生成的注意矩阵具有多尺度的接受域来学习雷达点的表示和周围环境的关系，从而作为合理的注意图来控制或增强视觉传感器内部的信息流。如图8所示，显示了SAF-FCOS中部分雷达特征、部分视觉特征、空间注意矩阵和部分融合特征的可视化结果。
在这里插入图片描述
对于图7所示的其他融合块，add fusion和concatenation fusion首先在[11]中进行评估。在此之后，RVNet[35]的工作只进行了concatenation fusion的实验，而[36]的工作则使用了add fusion的实验。我们认为这三种方法中使用的融合块都不是最适合特征融合的，因为雷达特征和视觉特征不是同类的，忽略了雷达信号的特征。我们还认为我们提出的SAF类似于在特征映射中实现的数据级融合，在训练数据集上是可学习的。为了充分比较不同的融合块，我们还引入了一个新的简单的Multiply fusion块，并做了很多实验，如第5节所示。（本文认为，雷达和相机数据级融合中，雷达特征更容易被忽略掉，所以常用的add和concat是不太行的。因此，提出了SAM，并将其定义到数据级融合的方法中）。

5 实验验证

在本节中，我们将在第一个提供雷达数据的自动驾驶数据集nuScenes[37]上对所提出的SAF-FCOS进行评估。在目标检测方面，有6k多对雷达视觉图像进行评估。利用700个场景的训练数据和150个场景的验证数据，对SAF-FCOS进行训练，得到34149对雷达视觉图像。所有实验均采用MS COCO[38]标准评价指标APIoU=0.50、APIoU=0.75、AP (IoU值在0.50 ~ 0.95之间取平均值)、APsmall、APmedium、APlarge，评估不同IoU阈值和尺度下SAF-FCOS的性能。此外，在所有平均精度指标中，最大检测值设置为100。为简单起见，这里的度量还显示为AP(100)、AP.50(100)、AP.75(100)、APs(100)、APm(100)、APl(100)。同样，不同max detection和scale下的平均召回率性能指标为AR(1)、AR(10)、AR(100)、ARs(100)、ARm(100)、ARl(100)，其中IoU阈值为0.50 ~ 0.95。

5.1节模型训练和推理的实现细节。
5.2节将使用雷达数据和视觉数据的SAF-FCOS检测结果与仅使用视觉数据的FCOS检测结果进行比较。
5.3节为了评估不同的融合块(如图7所示)，我们替换了SAF-FCOS模型中的SAF块，并使用相同的训练配置进行了大量的对比实验。
5.4节我们讨论了在用于SAF-FCOS训练和推理的雷达图像生成模型中，雷达点绘制半径的最合适数目。
5.5节引入不同的SAF配置，以明确本文所提出的SAF块中卷积层的作用。
5.6节将所提出的SAF块应用于Faster R-CNN[6]检测框架，以展示其通用性。

5.1 实施细节

我们在PyTorch[57]平台上实现了SAF-FCOS，并在8个12GB内存的NVIDIA GeForce GTX 1080Ti gpu上对模型进行训练。SAF-FCOS中使用的Vision Branch和Fusion Branch首先在ImageNet[58]数据集上进行预训练，所有的块都在nuScenes[37]数据集上进行精细调优。RentinaNet中R-Stem、R-Block1、layers的权值作为FCOS进行随机初始化的初值。此外，V-Stem和V-Block1的层数在模型训练中没有更新。默认情况下，我们使用随机梯度下降(SGD)训练safo - fcos，其动量为0.9，权值衰减为0.0001，总共40k次迭代。学习速率初始化为0.01。在前几次训练迭代中，采用了学习率不变的预热方案[49]。每次迭代的批处理为16对雷达视觉图像。采用MSRA初始化方法[59]对SAF的权值进行初始化。在模型训练中，调整输入的雷达图像和视觉图像的大小，使其短边为800，长边小于等于1333。

5.2 检测比较

FCOS[10]探测器是anchor box free的，以及proposal free。该算法在MS COCO数据集[38]上具有优异的性能。在本文中，我们提出了一个基于FCOS框架的SAF块用于障碍物检测。该方法由三组卷积层组成，提取空间注意矩阵。注意力矩阵可用于控制或增强视觉传感器内的信息流。
首先，我们将SAF-FCOS检测框架与仅通过视觉图像进行训练的FCOS检测框架进行比较。定性评价结果如图9所示。从左到右，有三个不同的场景，晴天，雨天和晚上。最上面一行的检测结果来自FCOS，最下面一行的检测结果由我们提出的SAF-FCOS提供。与FCOS相比，SAF-FCOS能够检测出较小和较远的障碍物，这对于自动驾驶汽车的路径规划非常重要。我们认为检测的提高是由于检测过程中涉及到更多的传感器信息。因此，我们认为传感器融合是一个很有前途的方向，可以突破检测算法只依赖于视觉传感器的瓶颈。
在这里插入图片描述

为了进行定量分析，我们使用nuScenes[37]测试数据集，报告MS COCO[38]等不同指标下的平均准确率和平均召回率结果，如表1所示。FCOS和SAF-FCOS中使用的特征提取主干是ResNet-50[49]的一部分。输入的雷达图像和视觉图像的测试尺度为800，即将图像较短的一侧调整为800像素。从表1可以看出，我们提出的SAF-FCOS在所有指标上都优于FCOS。在AP(100)、AP.50(100)和AP.75(100)中，SAF-FCOS分别上涨了约7.7%、3.8%和8.6%。基于此，我们可以得出如下结论：SAF-FCOS比FCOS生成更紧的bounding boxes。在APs(100)上，SAF-FCOS的性能比FCOS高9.3%，高于APm(100) 7.4%和APl(100) 6.4%的增益。这证明了雷达传感器对小障碍物的探测性能有所提高。更重要的是，SAF-FCOS在所有平均召回指标上也优于FCOS。利用雷达与视觉特征融合方案中的SAF bock，避免了数据级融合方案召回率低的问题。因为数据级融合方案的召回率取决于有效雷达点的数量，而有效雷达点的数量与障碍物[28]有关。
在这里插入图片描述
此外，在模型训练中还有一个有趣的实验现象。如图10所示，在整个迭代过程中，SAF-FCOS的训练损耗比FCOS下降得更快。此外，与FCOS相比，SAF-FCOS在测试数据集中的AP精度曲线很快趋于稳定，在40000次迭代过程中，SAF-FCOS的AP精度始终大于FCOS。（加了SAF后网络更容易收敛，且结果得到了优化）。
在这里插入图片描述

5.3 不同融合块的比较

为了评估4.2节中提到的不同的融合块，我们基于FCOS检测框架训练不同的融合模型，并对nuScenes数据集进行预测。训练配置和实施细节与SAF-FCOS相同。对于concatenation fusion块，来自雷达分支和视觉分支的特征图通道均为256。然后，我们在内核尺寸上增加一个配置为1 × 1 × 512 × 256的卷积层，以减少拼接融合块输出的通道。最后，在不同的特征融合方案下，Fusion Branch的输入特征映射通道均为256个，与SAF-FCOS一致。
如表2所示，我们提出的SAF-FCOS在所有平均精度指标和平均召回指标上都优于其他融合检测模型。基本上，CAT-FCOS的表现最差，AP比SAF-FCOS低约12.6%。此外，CAT-FCOS与MUL-FCOS性能相近。与[11]相似，element-wise add fusion方案优于concatenation fusion方案。当然，与ADD-FCOS相比，SAF-FCOS在AP上的收益约为8.2%。对于融合块的add, concatenation and multiply，我们认为它们不是设计良好的雷达和视觉传感器融合块。然而，我们所提出的SAF融合块不需要面对异构特征，而是根据雷达信号的特性生成一个注意力矩阵来控制或增强视觉传感器内部的信息流。
在这里插入图片描述

5.4 不同渲染半径的比较

雷达图像中不同的渲染半径如何影响SAF-FCOS模型的检测性能?为了揭示这个秘密，我们使用不同的渲染半径生成了六组雷达图像，分别是r = 1, r = 3, r = 5, r = 7, r = 9和r = 11。除雷达图像生成模型渲染半径设置外，所有实验的训练配置相同。SAF块由“Conv 1×1”、“Conv 3×3”和“Conv 5×5”层组成。此外，我们在nuScenes验证数据集[37]上进行了6次对比实验，以选择最优的渲染半径。
所有平均精度指标和平均召回指标的障碍检测比较结果如表3所示。综合考虑平均精度指标和平均召回指标，呈现半径为r = 7的雷达图像的SAF-FCOS检测性能最好。此外，我们应该注意到r = 1的检测性能非常接近于r = 7。结果表明，采用r = 7的雷达图像进行SAF融合是最合适的。在接下来的实验中，我们使用了SAF-FCOS中渲染半径为r = 7的雷达图像。
在这里插入图片描述

5.5 不同SAF配置的比较

为了弄清不同构型对SAF块生成的影响，我们做了大量的实验。构建SAF块的基本思想是探索不同类型卷积层的排列。在本文中，所有的排列都可以分为五类：没有SAF、由1层特定卷积层制成的SAF、由2种卷积层制成的SAF、由3种卷积层制成的SAF、由4种卷积层制成的SAF。严格来说，使用FCOS检测框架的不同SAF配置中，除了SAF外，训练配置和实现细节都是相同的。特征提取的骨干也是ResNet-50[49]，测试规模为800。
表4显示了不同SAF配置下的所有检测性能。根据比较结果，使用3 × 3，5 × 5或7 × 7特定卷积层生成的SAF的FCOS在所有平均精度指标上都优于没有SAF融合块的FCOS。此外，由1 × 1卷积层构建的SAF在所有指标上都不如FCOS。我们认为1 × 1卷积层的感受场太小，无法生成有意义的注意矩阵，不适合控制或增强视觉传感器中的信息流。
对于两种卷积层构成的SAF， 1 × 1和3 × 3卷积层构成的SAF检测性能优于1 × 1和5 × 5卷积层构成的SAF。然而，使用两种卷积层的其他两个版本的SAF性能却不如单卷积层的SAF。例如，3 × 3和5 × 5的SAF不如3 × 3的SAF或5 × 5的SAF好。当SAF由三个不同的卷积层组成时，检测性能优于使用一个卷积层和使用两个卷积层(5 × 5卷积层的SAF除外)。我们认为三组卷积层可以提取多尺度的感受域，这是生成有用的空间注意矩阵来融合雷达和视觉传感器信息的必要条件。
在这里插入图片描述
此外，当SAF由1 × 1，3 × 3，5 × 5和7 × 7卷积层组成时，AP(70.1%)的检测性能与最佳SAF配置AP(70.2%)非常接近。然而，我们应该注意到，在某些指标上，拥有最佳AP的SAF的性能仍然不如拥有四个不同卷积层的SAF。基于MS COCO[38]中的检测策略，利用AP选择最优的检测模型进行最终决策。因此，其他章节实验的融合检测模型使用的是由1 × 1，3 × 3和5 × 5卷积层组成的SAF。

5.6 SAF-Faster R-CNN的评估

为了验证所提出的SAF特征融合方法的通用性，我们引入了一种不同的检测框架Faster R-CNN[6]。与FCOS类似，Faster R-CNN的特征提取主干是ResNet-50[49]。如图6所示，我们将预测块替换为Faster R-CNN框架中使用的预测块，构建另一个特征融合检测模型SAF-Faster R-CNN。用于模型训练和推理的雷达图像绘制半径为r = 7。SAF配置有三组卷积层：1 × 1，3 × 3和5 × 5。顺便说一下，SAF-Faster R-CNN的训练配置继承了SAF-FCOS。
Faster R-CNN与SAF-Faster R-CNN的比较结果如表5所示。与往常一样，本文提出的SAF特征融合方法仍然可以提高Faster R-CNN的检测性能，这是一个非常有利的证据，支持本文提出的SAF融合模型的优秀的泛化性。当然，相对于Faster R-CNN, SAF-Faster R-CNN的改进并不像FCOS那么大。我们认为，SAF-Faster R-CNN的训练配置继承自SAF-FCOS，这并不适合SAF-Faster R-CNN检测模型。
在这里插入图片描述

6. 结论

本文提出了一种利用毫米波雷达和视觉传感器进行障碍物检测的特征融合方法。与其他特征融合方法不同的是，该方法利用雷达特征生成注意矩阵来控制或增强视觉传感器内部的信息流。与其他不同层次的融合方案相比，采用SAF的融合检测框架可以实现端到端对检测模型进行训练。在模型训练中，我们将雷达点转换为与视觉图像大小相同的雷达图像。与视觉检测框架FCOS[10]相比，本文提出的基于雷达数据和视觉数据的SAF-FCOS在各尺度上的检测性能都优于FCOS。更重要的是，APs(100)的改善幅度大于其他量表。
在未来的工作中，我们决定将SAF特征融合方法扩展到多摄像机和多雷达传感器，可以提供360度的传感器覆盖。为了进一步提高检测成功率，我们认为多目标跟踪模型和障碍物检测模型可以相互支持。此外，决策融合方案可以与SAF集成，以进一步提高检测性能。