MVFuseNet:Improving End-to-End Object Detection and Motion Forecasting through Multi-View Fusion of LiDAR Data 论文笔记
原文链接:https://arxiv.org/pdf/2104.10772.pdf
1 引言
传统的方法将目标检测和运动预测分为两个步骤,导致级联误差,且两个任务不能共享学到的特征。
关于端到端学习这两个任务的方法,一些先在RV上进行处理,仅将输出的结果转换到BEV进行后处理。该方法能高效处理大尺度区域,对小物体和遥远物体的检测结果能达到SotA;另一些仅在RV上进行很少的预处理或直接转化为BEV,然后在BEV上进行目标检测。物体形状和运动的距离不变性为运动预测提供了优势;但处理大区域上的可放缩性存在问题。
本文提出多视图(MV)融合网络来聚合激光雷达时间序列的时空特征。
3 MV检测和运动预测
3.1 预备知识
输入:帧激光雷达扫描,其中为最新的扫描,称为参考扫描。包含个激光雷达点,记为。由于不同帧下自车姿态可能不同,需要进行视角变换。设第帧中的点转移到第帧坐标系下后记为。
投影:RV表达即离散化球坐标下的水平角和提升角;BEV表达即离散化笛卡尔坐标下的和。
点的特征:对于点,拼接其在第帧下的原始坐标、参考帧下的转换后坐标和原始强度作为特征。
3.2 多视图时间融合网络
最直接的时间融合方法就是累积一段时间的激光雷达点(称为one-shot方法),然后投影到某个视图上进行特征聚合。但是投影阶段会有信息损失。
如上图所示,本文先将前一时刻RV特征转换到当前时刻(绿框),然后使用子网络为每个RV网格学习时空特征(粉框;结构为单独卷积+残差块),然后投影到BEV(橙框),与前一时刻的BEV特征拼接。类似地,也使用子网络为BEV每个网格学习时空特征。每个子网络(粉框)均不共享权重。
RV到RV的特征转换:若点在第帧和第帧的RV投影分别为和,和分别为第帧转换到第帧前后的特征图。则转换就是直接将对应位置的特征移动,即。若多个点投影到同一个网格中,则仅使用最近的点。
RV到BEV的特征转换:投影到BEV特征图中某网格的所有点,其特征向量为点的坐标与网格的中心坐标之差再与对应的RV特征拼接。最后网格内的所有点特征通过MLP(线性层+BN+ReLU)并求均值作为该BEV网格特征。
3.3 多视图主干网络
该网络的作用是处理时空特征并与地图特征融合。
通过非对称U-Net(结构如下)学习多尺度RV特征。然后用于上节相同的方法投影到BEV(橙框),与BEV时空特征、以及地图特征(高清地图离散化后通过CNN提取的)拼接。最后使用另一个相同结构的非对称U-Net提取多尺度BEV特征。
3.4 输出预测
目标是检测当前帧下的物体并预测轨迹。使用密集、单阶段的卷积头。类似CenterPoint,预测每个网格包含某个类别物体中心点的概率、边界框参数,并使用非最大抑制移除重复检测。对于大型物体的运动估计,提取以物体为中心的旋转的感兴趣区,学习物体特征预测轨迹。对于小型物体的运动估计,直接使用物体中心网格特征预测。
3.5 端到端学习
总损失函数为检测损失和轨迹损失之和。
检测损失包含分类损失(focal损失)和回归损失(SmoothL1损失,2D边界框参数包含中心点、尺寸和朝向角/)。
轨迹损失为未来每时间步长损失的平均值:
轨迹上时间的路径点被视为2D拉普拉斯分布,参数化为位置和尺度。使用预测和真实分布之间的KL散度计算损失,学习路径点的分布。
4 实验
4.1 评估指标
检测指标使用常规的AP;运动预测指标使用多个时间点上的位移误差,即预测边界框与其匹配真实边界框的中心距离。
4.2 实施细节
在nuScenes上使用了数据增广。即对非关键帧使用相邻帧标签插值生成标签,然后对整体点云进行小距离平移和轴旋转。
4.4 消融研究
4.4.1 时间融合网络中视图的作用
仅使用BEV的版本比仅使用RV的版本在运动预测性能上好很多,可能是由于BEV表达为运动预测提供了强先验。但融合RV和BEV的网络进一步提高了性能(尤其是对于小物体),这表明每个视图都有检测和运动预测的相关信息(RV有更细粒度的信息)。
4.4.2 主干网络中视图的作用
多视图方法比基于单个视图的方法性能好。在激光雷达分辨率高的数据集上,多视图方法带来的性能提升更显著。
4.4.3 多视图时间融合策略的作用
本文的顺序融合与one-shot融合方法比较,后者直接将原始点特征变换到RV或BEV下,与其余时刻的特征拼接,生成独立的RV和BEV时空特征。在激光雷达分辨率低的数据集上,顺序融合带来的性能提升更显著,可能是低分辨率激光雷达信号 时间融合导致的信息损失 带来的影响更为严重,而高分辨率激光雷达有更多的冗余信息。
4.5 运行时间分析
本文方法结合了RV带来的快速性和BEV带来的性能优势,能在下一帧数据到来前给出结果;检测范围越大,运行时间越长。