原文链接:https://arxiv.org/abs/2307.11323
1 引言
本文基于BEVDet系列模型,提出了一种两阶段检测器,称为HVDetFusion。
3 HVDetFusion方法
如图所示,本文的模型能仅使用多视图或单一视图图像作为输入,也可加入雷达点云数据。将图像进行数据增广以后,输入图像主干网络提取图像特征。图像特征的一部分被输入到深度网络中,另一部分与深度网络的输出一起用于视图变换。视图变换会把多视图图像的特征融合到一起。训练过程中,还使用激光雷达点云的精确位置信息来调整BEV特征,并通过检测头获取预测结果。加入雷达数据的情况下,会过滤雷达点云后与检测头的输出特征融合,输入到二级检测头。
3.2 雷达关联
使用BEVDet4D作为基本网络,然后添加辅助分支处理雷达数据,获取深度和速度信息并与主要检测分支融合。为实现理想融合,需要保证雷达点云中物体的位置信息与正确的图像特征区域匹配。因此在融合之前,先使用图像特征的分布作为物体位置的先验,过滤掉雷达点云中的无效部分。该过程如下图所示。
然后将点云位置信息处理为BEV下的2D边界框。当两个2D边界框重叠时,将重叠位置的中线作为新的边界。另一方面,将图像检测器的回归结果作为真值,然后计算来自雷达的2D边界框和真值之间的IoU。上述过程有两个超参数:BEV边界框缩放因子
α
\alpha
α和控制匹配难易度的阈值
β
\beta
β。通过减小
β
\beta
β或增大
α
\alpha
α,每个物体区域就能包含更多的雷达点云信息。当选择了合适的超参数时,有较大位置偏移的噪声点就能被过滤。
过滤雷达的2D边界框后,将每个2D边界框相应的雷达点的位置和速度信息聚合为一个张量,并分配到新生成的雷达BEV特征图中的相应区域(这些区域与已匹配的边界框一一对应)。雷达特征图与BEV编码模块生成的BEV特征图拼接并输入到二级检测头,进一步提高检测精度。
上述过程如下图所示。
4 实施细节
4.2 融合过程
使用初次检测头的位置回归值作为位置先验,过滤假阳性雷达点;BEV边界框的参考大小设置为长和宽均为1m;融合时不考虑行人和交通锥等小物体;使用CenterHead作为融合后的回归头;为避免雷达点云过于稀疏,使用当前帧之前的两帧作为补充。
5 结果
5.1 nuScenes验证集上的结果
与其余方法相比,本文的方法能在使用更低分辨率图像的情况下有相对更高的性能。HVDetFusion的速度估计精度较高,这归因于多帧融合与雷达点云的利用。
5.2 nuScenes测试集上的结果
使用测试时数据增广,HVDetFusion能大幅超过之前最好的融合结果CRN。与CRN相比,本文方法在小物体上的检测精度明显更高。
6 消融研究
实验表明,与BEVDet系列相比,更换更先进的图像主干、训练时考虑未来帧、使用COCO的预训练模型、使用更大的图像分辨率、引入雷达信号均能提高性能。