【论文笔记】MVFusion: Multi-View 3D Object Detection with Semantic-aligned Radar and Camera Fusion

原文链接:https://arxiv.org/abs/2302.10511

III. 方法

A. 总体结构

  本文的模型称为MVFusion,总体结构如下图所示,共分为5个部分:雷达预处理模块、图像编码器、语义对齐的雷达编码器(SARE)、雷达指导的融合transformer(RGFT)和检测网络。
在这里插入图片描述
  对于图像输入,使用图像编码器提取多视图多尺度图像特征: F image s = Conv s ( I ) F_\textup{image}^s=\textup{Conv}_s(I) Fimages=Convs(I),其中 s = 1 , 2 , 3 , 4 , 5 s=1,2,3,4,5 s=1,2,3,4,5索引尺度序号。
  对于雷达点云,本文通过投影到图像上来与图像融合,但雷达点云稀疏而富含噪声,因此需要进行两步预处理:一是过滤掉真实边界框外部的雷达点,并将剩余雷达点扩展为柱体以补充高度信息;二是将雷达柱体投影到图像。雷达特征包含5个分量:表示是否有雷达点的二进制掩膜、距离、RCS、径向速度的 X X X Y Y Y分量。

B.语义对齐的雷达编码器(SARE)

  SARE包含三部分:图像解码器、雷达特征提取器和图像指导的雷达Transformer。首先,语义对齐需要鲁棒的语义指示器(SI),这是由高级图像特征通过反卷积并与低级特征skip connection得到的:
D i = { DeConv ( F image 5 ) i = 4 , DeConv ( D i + 1 ) + F image i + 1 i = 1 , 2 , 3 D_i=\left\{\begin{matrix} \text{DeConv}(F^5_\text{image}) & i=4,\\ \text{DeConv}(D_{i+1})+F^{i+1}_\text{image} & i=1,2,3 \end{matrix}\right. Di={DeConv(Fimage5)DeConv(Di+1)+Fimagei+1i=4,i=1,2,3 通过 1 × 1 1\times1 1×1卷积将通道数变为1后,与输入雷达特征拼接。作者希望这个语义指示器能作为图像的前景掩膜,利用前景语义和在图像内的相对位置实现更鲁棒的对齐。
  雷达特征提取器(RFE)如下图所示。第一个卷积块用于下采样雷达特征,后续卷积块用于提取粗糙雷达特征,该步骤记为 F radar = RFE ( I indicator , I radar ) F_\text{radar}=\text{RFE}(I_\text{indicator},I_\text{radar}) Fradar=RFE(Iindicator,Iradar)
在这里插入图片描述
  上述操作产生次优性能,因为其忽视了隐式的位置和语义关系。因此,使用图像指导的雷达Transformer(IGRT)建模粗糙雷达特征的长距离依赖和关系,如下图所示。首先将粗糙雷达特征reshape为序列,加上可学习的位置编码输入到自注意力模块中:
Q , K , V = ( F radar + E pos ) W Q , K , V IGRT-Attn = Softmax ( Q K T C / h ) V F radar ′ = MLP ( LN ( IGRT-Attn ) ) Q,K,V=(F_\text{radar}+E_\text{pos})W_{Q,K,V}\\\text{IGRT-Attn}=\textup{Softmax}\left(\frac{QK^T}{\sqrt{C/h}}\right)V\\F'_\text{radar}=\text{MLP}(\text{LN}(\text{IGRT-Attn})) Q,K,V=(Fradar+Epos)WQ,K,VIGRT-Attn=Softmax(C/h QKT)VFradar=MLP(LN(IGRT-Attn))其中 h h h表示自注意力的头数。
在这里插入图片描述

C. 雷达指导的融合Transformer(RGFT)

  传统的拼接融合方法忽略了跨模态的空间关系,因此本文使用交叉注意力机制融合图像特征与雷达特征。雷达指导的融合Transformer如下图所示。
在这里插入图片描述
  为节省计算,RGFT未使用多头自注意力,且输入雷达特征和图像特征会分别先通过 1 × 1 1\times1 1×1卷积: F radar ′ ′ = Conv 1 × 1 a ( F radar ′ ) F image ′ ′ = Conv 1 × 1 b ( F image 5 + E pos ′ ) F''_\text{radar}=\text{Conv}_{1\times1}^a(F'_\text{radar})\\F''_\text{image}=\text{Conv}_{1\times1}^b(F^5_\text{image}+E'_\text{pos}) Fradar′′=Conv1×1a(Fradar)Fimage′′=Conv1×1b(Fimage5+Epos)  然后将图像和雷达的拼接特征作为查询,图像特征作为键和值:
Q = Concat ( F radar ′ ′ , F image ′ ′ ) W Q ,      K = F image ′ ′ W K ,      V = F image ′ ′ W V RGFT-Attn = Softmax ( Q K T C ) V F integrated = MLP ( LN ( RGFT-Attn ) ) Q=\text{Concat}(F''_\text{radar},F''_\text{image})W_Q,\;\;K=F''_\text{image}W_K,\;\;V=F''_\text{image}W_V\\\text{RGFT-Attn}=\textup{Softmax}\left(\frac{QK^T}{\sqrt{C}}\right)V\\F_\text{integrated}=\text{MLP}(\text{LN}(\text{RGFT-Attn})) Q=Concat(Fradar′′,Fimage′′)WQ,K=Fimage′′WK,V=Fimage′′WVRGFT-Attn=Softmax(C QKT)VFintegrated=MLP(LN(RGFT-Attn))其中 E pos ′ E'_\text{pos} Epos为可学习的图像特征位置编码。

D. 检测网络

  本文使用与PETR相同的多视图解码器与3D检测头,即物体查询通过多头注意力和前馈网络与融合特征交互。每个物体查询通过检测头预测一个3D位置和类别,并使用匈牙利算法进行标签分配。分类损失为focal损失,3D回归损失为L1损失。

IV. 实验

C. 与SotA方法的比较

  本文MVFusion的性能能超过激光雷达方法PointPillars、单目图像方法FCOS3D、多视图图像方法DETR3D/BEVDet/PETR。此外,也能大幅超过雷达图像融合方法CenterFusion。

D. 消融研究

  1) 本文提出的组件的影响:SARE与RGFT均能提高性能,且二者同时使用时性能最优。
  2) 语义对齐的雷达编码器(SARE):相比于无SARE的模型,SI与IGRT均能提高性能,且二者同时使用时性能最优。
  3) 雷达指导的融合Transformer(RGFT):相比于无RGFT的模型,仅使用雷达特征同时作为 K , Q , V K,Q,V K,Q,V时能提供有限的性能提升;若使用雷达特征作为 Q Q Q,而图像特征作为 K K K V V V,稀疏雷达特征会影响RGFT的收敛性,导致梯度爆炸和不稳定训练。使用雷达与图像的拼接特征作为 Q Q Q,图像特征作为 K K K V V V的性能最优。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

byzy

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值