I.引言
基于点云的方法稀疏、分布不均匀,容易漏掉被遮挡物体以及遥远物体的检测;且缺乏纹理信息,容易错误检测形状相似的物体。
本文提出基于相机和激光雷达多层次融合的方法,如下图所示。数据层次的融合使得激光雷达点云带有来自RGB图像的粗糙纹理信息;然后将点云分别编码为体素和BEV,其特征融合后通过粗糙-细化检测头生成高召回率的提案。该检测头模拟了两阶段检测网络,其中编码器生成粗糙边界框,然后由解码器细化。最后深度融合模块通过进一步融合图像特征提高正样本的置信度,减少误检。
实验结果证明了有效性,可视化表明本文方法可以解决第一段中提到的问题。
III.3D车辆检测器
网络包含三部分:早期融合(点云和图像数据级别的融合)、RPN网络(从体素和BEV预测边界框、提取图像特征)以及深度融合(使用融合特征进行边界框细化)。
A.早期融合
使用传感器校准参数将点和像素匹配,然后将色彩信息附加到点的特征,以丰富点的语义信息,从而避免特征提取器对物体形状的依赖性。落在图像外的点被丢弃。
B.3D区域提案网络
输入体素和BEV特征,融合后输入粗糙-细化检测头以获得高召回率的提案。
1)点云表达
使用多种点云表达可以提高模型的鲁棒性。
a)体素网格:将检测区域划分为网格,然后设置每个网格的点数阈值(当点数大于时随机采样个点,小于时使用零填充)。此外,每个点的特征被附加上其与该体素内点平均坐标的偏移量。
b)BEV:虽然投影会造成信息损失,但物体在BEV下占据独立空间,能反应物体的相对位置关系,减小遮挡和重叠带来的问题。将点云编码为六通道特征图(五个高度图和一个密度图),其中检测区域被离散化为平面上的网格,在五个均匀分布的高度区间分别统计每个网格内点的最大高度,得到五张高度图;密度图的编码为
其中为网格内的点数。
2)特征提取器
图像和BEV的特征提取使用传统卷积,体素特征提取使用SECOND的方法,即先用体素特征提取器(VFE)提取每个体素的特征,然后使用稀疏卷积。
a)体素网格分支:如下图所示。体素特征提取器包含线性层、最大池化和拼接操作;稀疏卷积网络用于提取全局特征。
b)BEV和图像分支:BEV分支使用卷积和最大池化,以匹配体素特征的大小,生成与体素特征相同大小的特征图。图像分支使用特征金字塔网络(FPN),其中编码器下采样特征,解码器上采样特征。
c)粗糙-细化检测头:深层特征有丰富的语义信息;由于卷积是平移不变的,深层特征的位置信息变得模糊,而浅层特征保留着更精确的位置信息。
如上图所示,融合体素和BEV特征后,粗糙回归器从编码器的各尺度特征获得提案以避免丢失正样本(提高召回率),然后细化回归器在解码器最后一层进行RoI池化并用其细化提案。两次非最大抑制(NMS)分别在粗糙提案和细化提案生成后进行。
C.深度融合
考虑到来自远处物体和被遮挡物体的点很少,使用深度融合来提高正样本的置信度。如图1所示,图像特征和点云特征融合后通过轻量级全卷积网络(FCN)得到检测结果。由于在3D RPN阶段进行了NMS,该部分的提案数量小,相应的推断时间也很小。
D.锚框和目标
取数据集内车辆平均尺寸,在平均高度处放置锚框;根据IoU进行正负锚框的分配;回归目标的编码与SECOND相同(见此文附录D(2)(a)损失函数之前的部分),即通过归一化回归目标提高检测鲁棒性。
E.损失函数
包含粗糙提案损失、细化提案损失和细化结果损失,每个损失包含分类损失(focal损失)、回归损失(SmoothL1损失;对于朝向角回归的是其正弦偏移量以避免角度不连续性)和朝向分类损失(交叉熵损失,判断朝向第一二象限还是第三四象限)。
IV.实验
B.消融研究
2)不同任务的损失权重:由于朝向分类是辅助任务,其损失对应的权重最小;实验表明应该更加关注回归损失以获得更好的性能。
3)粗糙-细化检测头:与单一尺度检测头以及多尺度检测头相比,本文的粗糙-细化检测头的性能更佳,特别是在KITTI困难难度下的检测。
4)融合模式:与无图像融合、仅早期融合、仅深度融合进行比较,使用两种融合方法的模型性能有大幅提升。
5)PR曲线:比较基于点云的网络以及基于融合的网络,前者在低召回率时的检测准确率比后者低,表明融合方法可以减小误检率。