MVFuseNet:Improving End-to-End Object Detection and Motion Forecasting through Multi-View Fusion of

最新推荐文章于 2024-04-24 07:31:32 发布

byzy

最新推荐文章于 2024-04-24 07:31:32 发布

阅读量440

点赞数 1

分类专栏：激光雷达3D目标检测

本文链接：https://blog.csdn.net/weixin_45657478/article/details/126024069

版权

自动驾驶目标检测深度学习

激光雷达3D目标检测专栏收录该内容

19 篇文章 9 订阅

订阅专栏

MVFuseNet:Improving End-to-End Object Detection and Motion Forecasting through Multi-View Fusion of LiDAR Data 论文笔记

原文链接：https://arxiv.org/pdf/2104.10772.pdf

1 引言

传统的方法将目标检测和运动预测分为两个步骤，导致级联误差，且两个任务不能共享学到的特征。

关于端到端学习这两个任务的方法，一些先在RV上进行处理，仅将输出的结果转换到BEV进行后处理。该方法能高效处理大尺度区域，对小物体和遥远物体的检测结果能达到SotA；另一些仅在RV上进行很少的预处理或直接转化为BEV，然后在BEV上进行目标检测。物体形状和运动的距离不变性为运动预测提供了优势；但处理大区域上的可放缩性存在问题。

本文提出多视图（MV）融合网络来聚合激光雷达时间序列的时空特征。

3 MV检测和运动预测

3.1 预备知识

输入： $K+1$ 帧激光雷达扫描 $\{S_k\}_{k=-K}^0$ ，其中 $S_0$ 为最新的扫描，称为参考扫描。 $S_k$ 包含 $N_k$ 个激光雷达点，记为 $S_k=\{p_k^i\}_{i=1}^{N_k}$ 。由于不同帧下自车姿态可能不同，需要进行视角变换。设第 $k$ 帧中的点转移到第 $n$ 帧坐标系下后记为 $S_{k,n}=\{p_{k,n}^i\}_{i=1}^{N_k}$ 。

投影：RV表达即离散化球坐标下的水平角和提升角；BEV表达即离散化笛卡尔坐标下的 $x$ 和 $y$ 。

点的特征：对于点 $p_k^i$ ，拼接其在第 $k$ 帧下的原始坐标、参考帧下的转换后坐标和原始强度作为特征。

3.2 多视图时间融合网络

最直接的时间融合方法就是累积一段时间的激光雷达点（称为one-shot方法），然后投影到某个视图上进行特征聚合。但是投影阶段会有信息损失。

如上图所示，本文先将前一时刻RV特征转换到当前时刻（绿框），然后使用子网络为每个RV网格学习时空特征（粉框；结构为单独卷积+残差块），然后投影到BEV（橙框），与前一时刻的BEV特征拼接。类似地，也使用子网络为BEV每个网格学习时空特征。每个子网络（粉框）均不共享权重。

RV到RV的特征转换：若点 $p_k^i$ 在第 $k$ 帧和第 $n$ 帧的RV投影分别为 $l_{k,k}^i$ 和 $l_{k,n}^i$ ， $R_{k,k}$ 和 $R_{k,n}$ 分别为第 $k$ 帧转换到第 $n$ 帧前后的特征图。则转换就是直接将对应位置的特征移动，即 $R_{k,n}(l_{k,n}^i)=R_{k,k}(l_{k,k}^i)$ 。若多个点投影到同一个网格中，则仅使用最近的点。

RV到BEV的特征转换：投影到BEV特征图中某网格的所有点，其特征向量为点的 $x,y$ 坐标与网格的中心坐标之差再与对应的RV特征拼接。最后网格内的所有点特征通过MLP（线性层+BN+ReLU）并求均值作为该BEV网格特征。

3.3 多视图主干网络

该网络的作用是处理时空特征并与地图特征融合。

通过非对称U-Net（结构如下）学习多尺度RV特征。然后用于上节相同的方法投影到BEV（橙框），与BEV时空特征、以及地图特征（高清地图离散化后通过CNN提取的）拼接。最后使用另一个相同结构的非对称U-Net提取多尺度BEV特征。

3.4 输出预测

目标是检测当前帧下的物体并预测轨迹。使用密集、单阶段的卷积头。类似CenterPoint，预测每个网格包含某个类别物体中心点的概率、边界框参数，并使用非最大抑制移除重复检测。对于大型物体的运动估计，提取以物体为中心的旋转的感兴趣区，学习物体特征预测轨迹。对于小型物体的运动估计，直接使用物体中心网格特征预测。

3.5 端到端学习

总损失函数为检测损失和轨迹损失之和。

检测损失包含分类损失（focal损失）和回归损失（SmoothL1损失，2D边界框参数包含中心点、尺寸和朝向角/ $(\cos(\theta_i),\sin(\theta_i))$ ）。

轨迹损失为未来每时间步长损失的平均值：

$L_{traj}=1/T\sum_{t=1}^TL_{t}^{KL}$

轨迹 $j$ 上时间 $t$ 的路径点被视为2D拉普拉斯分布，参数化为位置和尺度。使用预测和真实分布之间的KL散度计算损失，学习路径点的分布。

4 实验

4.1 评估指标

检测指标使用常规的AP；运动预测指标使用多个时间点上的 $L_2$ 位移误差，即预测边界框与其匹配真实边界框的中心距离。

4.2 实施细节

在nuScenes上使用了数据增广。即对非关键帧使用相邻帧标签插值生成标签，然后对整体点云进行小距离平移和 $z$ 轴旋转。

4.4 消融研究

4.4.1 时间融合网络中视图的作用

仅使用BEV的版本比仅使用RV的版本在运动预测性能上好很多，可能是由于BEV表达为运动预测提供了强先验。但融合RV和BEV的网络进一步提高了性能（尤其是对于小物体），这表明每个视图都有检测和运动预测的相关信息（RV有更细粒度的信息）。

4.4.2 主干网络中视图的作用

多视图方法比基于单个视图的方法性能好。在激光雷达分辨率高的数据集上，多视图方法带来的性能提升更显著。

4.4.3 多视图时间融合策略的作用

本文的顺序融合与one-shot融合方法比较，后者直接将原始点特征变换到RV或BEV下，与其余时刻的特征拼接，生成独立的RV和BEV时空特征。在激光雷达分辨率低的数据集上，顺序融合带来的性能提升更显著，可能是低分辨率激光雷达信号时间融合导致的信息损失带来的影响更为严重，而高分辨率激光雷达有更多的冗余信息。