原文链接:https://arxiv.org/abs/2302.10511
III. 方法
A. 总体结构
本文的模型称为MVFusion,总体结构如下图所示,共分为5个部分:雷达预处理模块、图像编码器、语义对齐的雷达编码器(SARE)、雷达指导的融合transformer(RGFT)和检测网络。
对于图像输入,使用图像编码器提取多视图多尺度图像特征:
F
image
s
=
Conv
s
(
I
)
F_\textup{image}^s=\textup{Conv}_s(I)
Fimages=Convs(I),其中
s
=
1
,
2
,
3
,
4
,
5
s=1,2,3,4,5
s=1,2,3,4,5索引尺度序号。
对于雷达点云,本文通过投影到图像上来与图像融合,但雷达点云稀疏而富含噪声,因此需要进行两步预处理:一是过滤掉真实边界框外部的雷达点,并将剩余雷达点扩展为柱体以补充高度信息;二是将雷达柱体投影到图像。雷达特征包含5个分量:表示是否有雷达点的二进制掩膜、距离、RCS、径向速度的
X
X
X与
Y
Y
Y分量。
B.语义对齐的雷达编码器(SARE)
SARE包含三部分:图像解码器、雷达特征提取器和图像指导的雷达Transformer。首先,语义对齐需要鲁棒的语义指示器(SI),这是由高级图像特征通过反卷积并与低级特征skip connection得到的:
D
i
=
{
DeConv
(
F
image
5
)
i
=
4
,
DeConv
(
D
i
+
1
)
+
F
image
i
+
1
i
=
1
,
2
,
3
D_i=\left\{\begin{matrix} \text{DeConv}(F^5_\text{image}) & i=4,\\ \text{DeConv}(D_{i+1})+F^{i+1}_\text{image} & i=1,2,3 \end{matrix}\right.
Di={DeConv(Fimage5)DeConv(Di+1)+Fimagei+1i=4,i=1,2,3 通过
1
×
1
1\times1
1×1卷积将通道数变为1后,与输入雷达特征拼接。作者希望这个语义指示器能作为图像的前景掩膜,利用前景语义和在图像内的相对位置实现更鲁棒的对齐。
雷达特征提取器(RFE)如下图所示。第一个卷积块用于下采样雷达特征,后续卷积块用于提取粗糙雷达特征,该步骤记为
F
radar
=
RFE
(
I
indicator
,
I
radar
)
F_\text{radar}=\text{RFE}(I_\text{indicator},I_\text{radar})
Fradar=RFE(Iindicator,Iradar)。
上述操作产生次优性能,因为其忽视了隐式的位置和语义关系。因此,使用图像指导的雷达Transformer(IGRT)建模粗糙雷达特征的长距离依赖和关系,如下图所示。首先将粗糙雷达特征reshape为序列,加上可学习的位置编码输入到自注意力模块中:
Q
,
K
,
V
=
(
F
radar
+
E
pos
)
W
Q
,
K
,
V
IGRT-Attn
=
Softmax
(
Q
K
T
C
/
h
)
V
F
radar
′
=
MLP
(
LN
(
IGRT-Attn
)
)
Q,K,V=(F_\text{radar}+E_\text{pos})W_{Q,K,V}\\\text{IGRT-Attn}=\textup{Softmax}\left(\frac{QK^T}{\sqrt{C/h}}\right)V\\F'_\text{radar}=\text{MLP}(\text{LN}(\text{IGRT-Attn}))
Q,K,V=(Fradar+Epos)WQ,K,VIGRT-Attn=Softmax(C/hQKT)VFradar′=MLP(LN(IGRT-Attn))其中
h
h
h表示自注意力的头数。
C. 雷达指导的融合Transformer(RGFT)
传统的拼接融合方法忽略了跨模态的空间关系,因此本文使用交叉注意力机制融合图像特征与雷达特征。雷达指导的融合Transformer如下图所示。
为节省计算,RGFT未使用多头自注意力,且输入雷达特征和图像特征会分别先通过
1
×
1
1\times1
1×1卷积:
F
radar
′
′
=
Conv
1
×
1
a
(
F
radar
′
)
F
image
′
′
=
Conv
1
×
1
b
(
F
image
5
+
E
pos
′
)
F''_\text{radar}=\text{Conv}_{1\times1}^a(F'_\text{radar})\\F''_\text{image}=\text{Conv}_{1\times1}^b(F^5_\text{image}+E'_\text{pos})
Fradar′′=Conv1×1a(Fradar′)Fimage′′=Conv1×1b(Fimage5+Epos′) 然后将图像和雷达的拼接特征作为查询,图像特征作为键和值:
Q
=
Concat
(
F
radar
′
′
,
F
image
′
′
)
W
Q
,
K
=
F
image
′
′
W
K
,
V
=
F
image
′
′
W
V
RGFT-Attn
=
Softmax
(
Q
K
T
C
)
V
F
integrated
=
MLP
(
LN
(
RGFT-Attn
)
)
Q=\text{Concat}(F''_\text{radar},F''_\text{image})W_Q,\;\;K=F''_\text{image}W_K,\;\;V=F''_\text{image}W_V\\\text{RGFT-Attn}=\textup{Softmax}\left(\frac{QK^T}{\sqrt{C}}\right)V\\F_\text{integrated}=\text{MLP}(\text{LN}(\text{RGFT-Attn}))
Q=Concat(Fradar′′,Fimage′′)WQ,K=Fimage′′WK,V=Fimage′′WVRGFT-Attn=Softmax(CQKT)VFintegrated=MLP(LN(RGFT-Attn))其中
E
pos
′
E'_\text{pos}
Epos′为可学习的图像特征位置编码。
D. 检测网络
本文使用与PETR相同的多视图解码器与3D检测头,即物体查询通过多头注意力和前馈网络与融合特征交互。每个物体查询通过检测头预测一个3D位置和类别,并使用匈牙利算法进行标签分配。分类损失为focal损失,3D回归损失为L1损失。
IV. 实验
C. 与SotA方法的比较
本文MVFusion的性能能超过激光雷达方法PointPillars、单目图像方法FCOS3D、多视图图像方法DETR3D/BEVDet/PETR。此外,也能大幅超过雷达图像融合方法CenterFusion。
D. 消融研究
1) 本文提出的组件的影响:SARE与RGFT均能提高性能,且二者同时使用时性能最优。
2) 语义对齐的雷达编码器(SARE):相比于无SARE的模型,SI与IGRT均能提高性能,且二者同时使用时性能最优。
3) 雷达指导的融合Transformer(RGFT):相比于无RGFT的模型,仅使用雷达特征同时作为
K
,
Q
,
V
K,Q,V
K,Q,V时能提供有限的性能提升;若使用雷达特征作为
Q
Q
Q,而图像特征作为
K
K
K和
V
V
V,稀疏雷达特征会影响RGFT的收敛性,导致梯度爆炸和不稳定训练。使用雷达与图像的拼接特征作为
Q
Q
Q,图像特征作为
K
K
K和
V
V
V的性能最优。