【论文笔记】MVFusion: Multi-View 3D Object Detection with Semantic-aligned Radar and Camera Fusion

最新推荐文章于 2023-10-23 21:54:20 发布

byzy

最新推荐文章于 2023-10-23 21:54:20 发布

阅读量617

点赞数 1

分类专栏： # 雷达与图像融合多模态融合3D感知（目标检测为主）文章标签：论文阅读目标检测深度学习自动驾驶

本文链接：https://blog.csdn.net/weixin_45657478/article/details/129203267

版权

多模态融合3D感知（目标检测为主）同时被 2 个专栏收录

36 篇文章 38 订阅

订阅专栏

雷达与图像融合

13 篇文章 5 订阅

订阅专栏

原文链接：https://arxiv.org/abs/2302.10511

III. 方法

A. 总体结构

本文的模型称为MVFusion，总体结构如下图所示，共分为5个部分：雷达预处理模块、图像编码器、语义对齐的雷达编码器（SARE）、雷达指导的融合transformer（RGFT）和检测网络。
在这里插入图片描述
对于图像输入，使用图像编码器提取多视图多尺度图像特征： $F_\textup{image}^s=\textup{Conv}_s(I)$ ，其中 $s = 1, 2, 3, 4, 5$ 索引尺度序号。
对于雷达点云，本文通过投影到图像上来与图像融合，但雷达点云稀疏而富含噪声，因此需要进行两步预处理：一是过滤掉真实边界框外部的雷达点，并将剩余雷达点扩展为柱体以补充高度信息；二是将雷达柱体投影到图像。雷达特征包含5个分量：表示是否有雷达点的二进制掩膜、距离、RCS、径向速度的 $X$ 与 $Y$ 分量。

B.语义对齐的雷达编码器（SARE）

SARE包含三部分：图像解码器、雷达特征提取器和图像指导的雷达Transformer。首先，语义对齐需要鲁棒的语义指示器（SI），这是由高级图像特征通过反卷积并与低级特征skip connection得到的：
$D_i=\left\{\begin{matrix} \text{DeConv}(F^5_\text{image}) & i=4,\\ \text{DeConv}(D_{i+1})+F^{i+1}_\text{image} & i=1,2,3 \end{matrix}\right.$ 通过 $1\times1$ 卷积将通道数变为1后，与输入雷达特征拼接。作者希望这个语义指示器能作为图像的前景掩膜，利用前景语义和在图像内的相对位置实现更鲁棒的对齐。
雷达特征提取器（RFE）如下图所示。第一个卷积块用于下采样雷达特征，后续卷积块用于提取粗糙雷达特征，该步骤记为 $F_\text{radar}=\text{RFE}(I_\text{indicator},I_\text{radar})$ 。
在这里插入图片描述
上述操作产生次优性能，因为其忽视了隐式的位置和语义关系。因此，使用图像指导的雷达Transformer（IGRT）建模粗糙雷达特征的长距离依赖和关系，如下图所示。首先将粗糙雷达特征reshape为序列，加上可学习的位置编码输入到自注意力模块中：
$Q,K,V=(F_\text{radar}+E_\text{pos})W_{Q,K,V}\\\text{IGRT-Attn}=\textup{Softmax}\left(\frac{QK^T}{\sqrt{C/h}}\right)V\\F'_\text{radar}=\text{MLP}(\text{LN}(\text{IGRT-Attn}))$ 其中 $h$ 表示自注意力的头数。
在这里插入图片描述

C. 雷达指导的融合Transformer（RGFT）

传统的拼接融合方法忽略了跨模态的空间关系，因此本文使用交叉注意力机制融合图像特征与雷达特征。雷达指导的融合Transformer如下图所示。
在这里插入图片描述
为节省计算，RGFT未使用多头自注意力，且输入雷达特征和图像特征会分别先通过 $1\times1$ 卷积： $F''_\text{radar}=\text{Conv}_{1\times1}^a(F'_\text{radar})\\F''_\text{image}=\text{Conv}_{1\times1}^b(F^5_\text{image}+E'_\text{pos})$ 然后将图像和雷达的拼接特征作为查询，图像特征作为键和值：
$Q=\text{Concat}(F''_\text{radar},F''_\text{image})W_Q,\;\;K=F''_\text{image}W_K,\;\;V=F''_\text{image}W_V\\\text{RGFT-Attn}=\textup{Softmax}\left(\frac{QK^T}{\sqrt{C}}\right)V\\F_\text{integrated}=\text{MLP}(\text{LN}(\text{RGFT-Attn}))$ 其中 $E'_\text{pos}$ 为可学习的图像特征位置编码。

D. 检测网络

本文使用与PETR相同的多视图解码器与3D检测头，即物体查询通过多头注意力和前馈网络与融合特征交互。每个物体查询通过检测头预测一个3D位置和类别，并使用匈牙利算法进行标签分配。分类损失为focal损失，3D回归损失为L1损失。

IV. 实验

C. 与SotA方法的比较

本文MVFusion的性能能超过激光雷达方法PointPillars、单目图像方法FCOS3D、多视图图像方法DETR3D/BEVDet/PETR。此外，也能大幅超过雷达图像融合方法CenterFusion。

D. 消融研究

1) 本文提出的组件的影响：SARE与RGFT均能提高性能，且二者同时使用时性能最优。
2) 语义对齐的雷达编码器（SARE）：相比于无SARE的模型，SI与IGRT均能提高性能，且二者同时使用时性能最优。
3) 雷达指导的融合Transformer（RGFT）：相比于无RGFT的模型，仅使用雷达特征同时作为 $K, Q, V$ 时能提供有限的性能提升；若使用雷达特征作为 $Q$ ，而图像特征作为 $K$ 和 $V$ ，稀疏雷达特征会影响RGFT的收敛性，导致梯度爆炸和不稳定训练。使用雷达与图像的拼接特征作为 $Q$ ，图像特征作为 $K$ 和 $V$ 的性能最优。