原文链接:https://arxiv.org/abs/2404.03015
简介:本文提出双视角融合Transformer(DPFT),利用低级的雷达数据(雷达张量)以保留更多信息,并使用4D雷达在相机和地面的投影以简化与图像的融合。DPFT在K-Radar数据集上能达到SotA性能,且对极端天气具有鲁棒性,并有更低的推断时间。
0. 方法概述
DPFT可处理多模态融合的主要挑战,即传感器的感知维度、数据表达和分辨率差异。
首先,使用包含更多信息的雷达张量,并减小雷达数据与图像的分辨率差异。然后使用4D雷达张量创造两个投影:一个平行于图像平面,以进行图像和雷达数据的融合;另一个与之垂直,以保留互补的雷达信息。此外,模型内的两模态无依赖关系,在一个模态失效时也可正常运行。
1. 数据准备
传统雷达表达在与图像平面垂直的BEV下,导致图像与雷达的融合困难。因此本文使用4D雷达张量,但4D数据的处理需要大量计算,且将图像提升到3D与雷达融合十分困难。因此本文将雷达数据投影到距离-水平角(RA)平面和水平角-俯仰角(AE)平面。这样,可减小数据大小且建立图像与BEV平面的物理关系。
通过文献和对数据子集的敏感性分析,投影时的特征选为幅值和多普勒值的最大值、中值和方差。此外,雷达张量的前三和后三个单元格被剔除,以避免AE投影时的离散快速傅里叶变换(DFFT)伪影。
此外,使用双线性插值将图像缩小,以减小计算量。
2. 特征提取
各输入分别输入三个主干和颈部网络。
雷达的两个投影视图和图像使用的主干分别为ResNet50和ResNet101(均在ImageNet上进行了预训练;雷达主干前有 1 × 1 1\times1 1×1卷积以改变通道维度)。
颈部网络(FPN)负责对齐多尺度特征和原始数据的通道维度,并交换信息。
3. 传感器融合
融合模块允许直接从单个输入查询融合特征,故无需建立统一的特征空间。使用多头可变形注意力,关注参考点周围固定数量的“键”,然后使用线性层将收集的注意力特征融合,用于物体的检索。
参考点被定义为3D锚点(查询)在2D图上的投影,而3D锚点被初始化为极坐标系下均匀分布的点,且其特征从均匀分布中采样。
4. 目标检测
预测边界框的中心和之前的查询特征会迭代地输入注意力层以进行细化。
检测头由3个线性层和特定激活函数构成。对于3D中心点,激活函数使用恒等函数;对于边界框尺寸,使用ReLU函数;朝向角则使用双曲正切函数(预测的是其正余弦值);类别使用Sigmoid函数,并选择最大值对应的类作为预测类别。
5. 模型训练
使用DETR采用的集合到集合的损失和一对一匹配。损失函数包括focal分类损失和L1回归损失。
总结:本文类似FUTR3D,只是对雷达数据的处理方式不同。