MVFuseNet:Improving End-to-End Object Detection and Motion Forecasting through Multi-View Fusion of

MVFuseNet:Improving End-to-End Object Detection and Motion Forecasting through Multi-View Fusion of LiDAR Data 论文笔记

原文链接:https://arxiv.org/pdf/2104.10772.pdf

1 引言

        传统的方法将目标检测和运动预测分为两个步骤,导致级联误差,且两个任务不能共享学到的特征。

        关于端到端学习这两个任务的方法,一些先在RV上进行处理,仅将输出的结果转换到BEV进行后处理。该方法能高效处理大尺度区域,对小物体和遥远物体的检测结果能达到SotA;另一些仅在RV上进行很少的预处理或直接转化为BEV,然后在BEV上进行目标检测。物体形状和运动的距离不变性为运动预测提供了优势;但处理大区域上的可放缩性存在问题。

        本文提出多视图(MV)融合网络来聚合激光雷达时间序列的时空特征。

3 MV检测和运动预测

3.1 预备知识

        输入K+1帧激光雷达扫描\{S_k\}_{k=-K}^0,其中S_0为最新的扫描,称为参考扫描。S_k包含N_k个激光雷达点,记为S_k=\{p_k^i\}_{i=1}^{N_k}。由于不同帧下自车姿态可能不同,需要进行视角变换。设第k帧中的点转移到第n帧坐标系下后记为S_{k,n}=\{p_{k,n}^i\}_{i=1}^{N_k}

        投影:RV表达即离散化球坐标下的水平角和提升角;BEV表达即离散化笛卡尔坐标下的xy

        点的特征:对于点p_k^i,拼接其在第k帧下的原始坐标、参考帧下的转换后坐标和原始强度作为特征。

3.2 多视图时间融合网络

        最直接的时间融合方法就是累积一段时间的激光雷达点(称为one-shot方法),然后投影到某个视图上进行特征聚合。但是投影阶段会有信息损失。

        如上图所示,本文先将前一时刻RV特征转换到当前时刻(绿框),然后使用子网络为每个RV网格学习时空特征(粉框;结构为单独卷积+残差块),然后投影到BEV(橙框),与前一时刻的BEV特征拼接。类似地,也使用子网络为BEV每个网格学习时空特征。每个子网络(粉框)均不共享权重。

        RV到RV的特征转换:若点p_k^i在第k帧和第n帧的RV投影分别为l_{k,k}^il_{k,n}^iR_{k,k}R_{k,n}分别为第k帧转换到第n帧前后的特征图。则转换就是直接将对应位置的特征移动,即R_{k,n}(l_{k,n}^i)=R_{k,k}(l_{k,k}^i)。若多个点投影到同一个网格中,则仅使用最近的点。

        RV到BEV的特征转换:投影到BEV特征图中某网格的所有点,其特征向量为点的x,y坐标与网格的中心坐标之差再与对应的RV特征拼接。最后网格内的所有点特征通过MLP(线性层+BN+ReLU)并求均值作为该BEV网格特征。

3.3 多视图主干网络

        该网络的作用是处理时空特征并与地图特征融合。

        通过非对称U-Net(结构如下)学习多尺度RV特征。然后用于上节相同的方法投影到BEV(橙框),与BEV时空特征、以及地图特征(高清地图离散化后通过CNN提取的)拼接。最后使用另一个相同结构的非对称U-Net提取多尺度BEV特征。

3.4 输出预测

        目标是检测当前帧下的物体并预测轨迹。使用密集、单阶段的卷积头。类似CenterPoint,预测每个网格包含某个类别物体中心点的概率、边界框参数,并使用非最大抑制移除重复检测。对于大型物体的运动估计,提取以物体为中心的旋转的感兴趣区,学习物体特征预测轨迹。对于小型物体的运动估计,直接使用物体中心网格特征预测。

3.5 端到端学习

        总损失函数为检测损失和轨迹损失之和。

        检测损失包含分类损失(focal损失)和回归损失(SmoothL1损失,2D边界框参数包含中心点、尺寸和朝向角/(\cos(\theta_i),\sin(\theta_i)))。

        轨迹损失为未来每时间步长损失的平均值:

L_{traj}=1/T\sum_{t=1}^TL_{t}^{KL}

        轨迹j上时间t的路径点被视为2D拉普拉斯分布,参数化为位置和尺度。使用预测和真实分布之间的KL散度计算损失,学习路径点的分布。

4 实验

4.1 评估指标

        检测指标使用常规的AP;运动预测指标使用多个时间点上的L_2位移误差,即预测边界框与其匹配真实边界框的中心距离。

4.2 实施细节

        在nuScenes上使用了数据增广。即对非关键帧使用相邻帧标签插值生成标签,然后对整体点云进行小距离平移和z轴旋转。

4.4 消融研究

4.4.1 时间融合网络中视图的作用

        仅使用BEV的版本比仅使用RV的版本在运动预测性能上好很多,可能是由于BEV表达为运动预测提供了强先验。但融合RV和BEV的网络进一步提高了性能(尤其是对于小物体),这表明每个视图都有检测和运动预测的相关信息(RV有更细粒度的信息)。

4.4.2 主干网络中视图的作用

        多视图方法比基于单个视图的方法性能好。在激光雷达分辨率高的数据集上,多视图方法带来的性能提升更显著。

4.4.3 多视图时间融合策略的作用

        本文的顺序融合与one-shot融合方法比较,后者直接将原始点特征变换到RV或BEV下,与其余时刻的特征拼接,生成独立的RV和BEV时空特征。在激光雷达分辨率低的数据集上,顺序融合带来的性能提升更显著,可能是低分辨率激光雷达信号 时间融合导致的信息损失 带来的影响更为严重,而高分辨率激光雷达有更多的冗余信息。

4.5 运行时间分析

        本文方法结合了RV带来的快速性和BEV带来的性能优势,能在下一帧数据到来前给出结果;检测范围越大,运行时间越长。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

byzy

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值