原文链接:https://arxiv.org/abs/2404.03015
简介:本文提出双视角融合Transformer(DPFT),利用低级的雷达数据(雷达张量)以保留更多信息,并使用4D雷达在相机和地面的投影以简化与图像的融合。DPFT在K-Radar数据集上能达到SotA性能,且对极端天气具有鲁棒性,并有更低的推断时间。
0. 方法概述
DPFT可处理多模态融合的主要挑战,即传感器的感知维度、数据表达和分辨率差异。
首先,使用包含更多信息的雷达张量,并减小雷达数据与图像的分辨率差异。然后使用4D雷达张量创造两个投影:一个平行于图像平面,以进行图像和雷达数据的融合;另一个与之垂直,以保留互补的雷达信息。此外,模型内的两模态无依赖关系,在一个模态失效时也可正常运行。
1. 数据准备
传统雷达表达在与图像平面垂直的BEV下,导致图像与雷达的融合困难。因此本文使用4D雷达张量,但4D数据的处理需要大量计算,且将图像提升到3D与雷达融合十分困难。因此本文将雷达数据投影到距离-水平角(