原文链接:Sparse-PointNet: See Further in Autonomous Vehicles | IEEE Journals & Magazine | IEEE Xplore
I.引言
目前的激光雷达3D检测方法,为保证输入尺寸一致性采用的采样技术(如点云表达时的最远点采样和网格表达时的随机采样),通常会选择较大的采样分辨率。这往往导致检测器倾向于从密集点云中学习丰富信息,故仅在近距离范围的检测效果好;而远处的点较为稀疏,提取空间特征本身就比较困难,采样方法进一步加剧此问题。
由于标注者可以在多传感器融合的帮助下准确标注远处车辆,故本文也考虑使用多模态融合的方法:先使用PointPainting方法将激光雷达点投影到语义分割后的图像上得到分类分数,然后采样和保留体素中有最高分类分数的点,强制每个体素中的点密度相同。由于雷达点对距离的敏感程度不如激光雷达,也过滤一些有效的雷达点输入网络。最后使用动态连续占用热图来恢复损失的几何信息,从而解决远处空间信息不足的问题。
III.Sparse-PointNet
整体框架如下,包含预处理、动态连续占用热图(最大程度地恢复空间信息)、采样(使用语义分割移除背景点、保留每个区域最有代表性的点作为关键点)、提案生成(使用有代表性的点生成粗糙提案)和提案细化(融合占用热图优化结果)模块。
A.预处理
激光雷达点的特征为,包含3D坐标和两帧时间差(如果点云是通过累积多帧生成的)。
雷达点的特征类似。但由于是2D雷达,仅能测量坐标,故
坐标是统计了数据集中所有物体平均中心高度(平均高度的一半)后得到的、所有雷达点均相同的值(该设置使得激光雷达点的特征维度和雷达特征维度相同,是为了后续雷达点云和激光雷达点云的拼接)。
雷达点的其他特征通常包含RCS、速度、有效状态和FP概率,其中前两者本文没有使用,后两者用于筛选需要的雷达点(即仅使用有效且FP概率小于一定值的点)。
B.动态连续占用热图
希尔伯特图(HM)和贝叶斯希尔伯特图(BHM)可以连续地评估环境中每个区域的占用概率,从而生成连续占用图;即使点很少,效果也很可靠。
对于激光雷达点云,预测BEV下的占用图。监督学习中,激光雷达每个光束的末端被标记为“占用”(
);自车到端点的区域被标记为“未占用”(
)。
HM中,使用由内积定义的核将点投影到高维空间得到特征
,其中
为空间固定点。
其中是带宽参数,用于调节输出热图的平滑度。然后使用sigmoid函数
计算点
的占用概率
:
其中是SGD在线学习得到的权重参数。
HBM进一步考虑了的不确定性,将
视为服从多变量正态分布:
其中和
使用EM算法迭代地学习。
考虑到点密度随距离的变化,将UnoccupiedPointsPerMeter参数乘以以更好地表达占用状态,其中
,
为预设值(20m),
为距离。本文为激光雷达和雷达同时建立占用图。
动态连续占用图能防止接下来近距离采样时造成的空间信息损失,也能在远距离帮助产生更好的检测结果。
C.采样
两个目标:(1)减小近距离点的密度,使下采样点的密度在整个场景有一致性;(2)下采样的点应有高代表性,使3D检测器能在稀疏点云中检测和分类物体。
三个步骤:(1)图像语义分割;(2)激光雷达点投影到图像上获取分类分数;(3)根据分数对点云进行采样,每个网格仅留下最有代表性的点。
采样算法如下。背景类分数大于阈值的点被丢弃,然后体素化点云,为每个体素
选择分数最高的点。最后使用最远点采样(FPS)选择
个点得到点集
。
该采样算法也被扩展为同时针对激光雷达和雷达点云的算法。
D.提案生成模块
使用PointNet++(多尺度分组MSG)编码关键点集合,然后考虑到稀疏性,进行基于区间的3D边界框生成(PointR-CNN中的方法),粗略地生成边界框(提案框)。该方法比基于SmoothL1损失的回归能更稳定可靠地学习。
如边界框的坐标由其区间位置及残差计算:
其中是真实的
值,
是输入关键点的
坐标,
是
坐标的搜索范围,
是区间长度,
是归一化参数。
和
按照类似方法计算。
坐标使用SmoothL1损失直接回归。
对于分类任务,直接使用图像分割结果,而无需额外的分类头。
提案框的大小表示为该类别平均大小和残差之和。
最后使用PointR-CNN中的点云区域池化模块编码提案框,即使用提案框中的激光雷达和雷达点,学习维输出特征向量
。
E.提案细化模块
使用动态连续占用图中的相应区域特征计算残差,细化提案。若提案中心为,则在占用图中取出以
为中心的、比平均类别尺寸稍大的区域(使模型学到上下文信息),输入到全连接层中得到与
长度相同的特征向量
。然后
和
拼接,输入两个全连接层回归边界框残差(SmoothL1损失)。
IV.实验
A.数据集
本文使用nuScenes数据集(雷达和激光雷达仅在关键帧有标注)。
B.实施细节
使用最小二乘法和RANSAC去除地面点。
HBM的时间复杂度为。为减小推断时间,仅使用关键帧数据。训练时,占用热图模块依次取关键帧,生成动态占用热图;推断时使用短期占用热图,即使用一个关键帧生成占用热图。
采样模块使用雷达和激光雷达的关键帧和部分非关键帧作为输入。
提案生成模块的PointNet++包含2层SA和2层FP,并对结果使用非最大抑制,前个结果被保留用于下一阶段。
提案细化阶段随机采样1:1的正负提案(区分正负提案的IoU阈值被设置为与距离相关,如近距离的阈值高,远距离的阈值低)。
C.主要结果
本文方法对长尾分布的类别(即占少数比例的多数类别)有更高的性能;且由于仅处理少量点,速度很快。
远距离物体的检测精度有所提升;但由于空间信息的损失,近距离物体的检测性能有所下降。
D.消融实验
雷达的影响:移除雷达点后,近距离物体的检测精度有所提高,可能是由于雷达的角距耦合导致定位偏差。但去除雷达后远距离物体的检测精度大幅下降,且几乎没有减少推断时间。对于其他方法,加入雷达信号也能略微提高远距离物体的检测精度。
占用热图:移除占用热图和提案细化模块后,近距离检测精度略有下降,但远距离物体的检测精度大幅下降。该模块的缺点是耗时。如果使用连续关键帧生成长期占用热图,相比短期占用热图,性能略有提升。
关键点采样:替换为FPS后,远距离物体的检测精度大幅下降,证明了本文采样方法选择代表性点的有效性。