原文链接:[2307.11323] HVDetFusion: A Simple and Robust Camera-Radar Fusion Framework (arxiv.org)
摘要
HVDetFusion--一种多模态检测算法,支持纯相机数据作为检测输入,还支持毫米波雷达和相机数据融合输入。
纯相机流中能输出完整的3D检测目标,融合部分能够吸收毫米波雷达的优势,融合毫米波雷达传感器的定位信息和径向速度信息,进一步提高融合效果。
在NuScenes数据榜单上达到了64.7%的NDS!
一、介绍
HVDetFusion——基于BevDet的两阶段模型结构,支持多种数据类型的组合作为输入。
在可解耦分支结构中处理不同类型的数据;在插件分支中对主检测结构预测内容的精度进行校正和优化。
二、方法
1、工作流程
整个工作流程如图1所示,包括数据采集、数据处理、特征融合、目标检测。
数据输入方面,支持三种不同的数据组合方法:
(1)采用6种不同相机视角的图像数据;
(2)采用相机前视视角的图像数据;
(3)对毫米波雷达点云进行过滤,将保留的有效点云与3D探测头的输出特征融合。
2、数据集
使用完整的NuScenes数据集,包含140万雷达扫描,传感器的探测范围在200-300米。但是因为毫米波雷达的定位比激光雷达更偏,毫米波雷达的点云也比较稀疏,所以需要对雷达点云进行过滤。
3、雷达关联
(1)以BevDet4D作为基础结构,采用6个相机图像数据作为输入进行训练和预测,已经达到一定的效果;
(2)增加处理雷达数据集的辅助分支架构,以获得有效的深度信息和速度信息,然后再与检测主分支进行融合;
(3)融合时,需要保证雷达点云中的每个目标的位置信息能与与图像特征正确匹配,在此基础上将位置信息和速度信息相融合;
(4)融合前先利用图像特征得到目标位置的先验,再利用先验位置对毫米波雷达点云进行滤波,以获得ROI区域。
上图所示便是毫米波雷达过滤的流程。首先,先将点云的位置信息处理成BEV视角下的边界框,然后通过图像特征得到每个类别物体位置和大小的回归结果作为位置先验,生成一定意义上的边界框地面真值,最后计算雷达点云生成的边界框与地面真值的IOU分数。
进一步,将超参数α作为二维边界框的尺寸缩放因子,将超参数β作为阈值来控制匹配难度。通过减小β或增大α,每个目标区域可以包含更多的雷达点云信息。当超参数设置合理时,可以滤除位置偏差较大的噪声点。
滤波后 -> 雷达特征图:包含位置和速度信息。
第二回归头:
输入:雷达特征图+BEV编码模块计算后得到的特征图
用途:校正各类别任务的速度、旋转、位置回归的偏差,进一步提高主回归头预测的精度。
在雷达有效点匹配过程中,为了提高匹配效率,采用了中心点位置匹配和计算雷达二维边界框与地面真值的IOU匹配分数两阶段匹配方法。
上图显示了雷达数据处理、滤波、融合计算的全过程。
雷达数据 -> BEV视图下的点云 -> 通过位置先验信息 -> 滤波 -> 在BEV视角下生成二维边界框 -> 与热图得到的参考有效区域进行IOU匹配 -> 生成张量与原始特征图融合
三、实现细节
1、训练设置
配置1:主要用于小分辨率图像的训练和测试,也用作整个优化过程中的基线配置
配置2:用于骨干网和BEV网的尺寸适配实验
配置3:用于640*1600分辨率图像的训练和评估过程
2、融合过程
使用6-8轮训练的主回归头的位置回归值作为过滤雷达点云假阳性特征之前的位置;
有效深度设置为51.2米;
融合特征的回归头:CenterHead
利用雷达数据集中的坐标x、坐标y、速度分量vx和速度分量vy作为有效信息,生成多通道矩阵作为雷达特征图
四、基准测试结果
1、在nuScenes验证集下的结果
为了比较的公平,使用ResNet50作为网络主干,更小的256×704分辨率 ,与大部分方法相比,取得了较好的检测分数
2、在nuScenes测试集下的结果
HVDetFusion在nuScenes基于相机-雷达的三维目标检测排行榜上以67.4%的NDS得分排名第一,NDS比之前的最佳方法CRN高5%,mAP比CRN高3.4%。
表4进一步阐明了模型对不同类别检测任务的性能影响