Towards Robust 3D Object Detection with LiDAR and 4D Radar Fusion in Various Weather Conditions
原文链接:https://openaccess.thecvf.com/content/CVPR2024/papers/Chae_Towards_Robust_3D_Object_Detection_with_LiDAR_and_4D_Radar_CVPR_2024_paper.pdf
简介:在各种天气下进行3D目标检测是安全自动驾驶的关键。目前的方法关注使用对天气不敏感的4D雷达,或与其它模态结合,但融合时没有考虑传感器特性和天气情况,且丢失部分对检测重要的高度信息。本文提出3D-LRF模块,考虑了激光雷达和4D雷达在3D空间的不同模式,并基于3D空间关系融合特征。此外,还提出以天气为条件的雷达流门控网络,根据天气情况控制融合信息流。实验表面本文方法能在各种天气条件下均达到SotA水平。
1. 概述
本文以激光雷达点云
L
∈
R
N
0
×
3
L\in\mathbb R^{N_0\times 3}
L∈RN0×3、4D雷达点云
R
∈
R
M
0
×
3
R\in\mathbb R^{M_0\times 3}
R∈RM0×3和图像
I
∈
R
H
×
W
×
3
I\in\mathbb R^{H\times W\times 3}
I∈RH×W×3为输入。首先使用输入层将激光雷达和4D雷达点云映射到高维空间,然后3D稀疏卷积用于提取3D信息,得到体素特征
L
l
∈
R
N
l
×
C
l
L_l\in\mathbb R^{N_l\times C_l}
Ll∈RNl×Cl和
R
l
∈
R
M
l
×
C
l
R_l\in\mathbb R^{M_l\times C_l}
Rl∈RMl×Cl(
l
l
l为尺度序号)。使用3D-LRF模块融合得到
F
l
∈
R
N
l
×
C
l
F_l\in\mathbb R^{N_l\times C_l}
Fl∈RNl×Cl。
图像使用预训练的2D卷积网络,用于天气分类。使用以天气为条件的图像特征 I w ∈ R 1 × C l I_w\in\mathbb R^{1\times C_l} Iw∈R1×Cl、 L l L_l Ll与 R l R_l Rl,WRGNet通过门控控制信息从4D毫米波雷达流向激光雷达,得到增强激光雷达特征 L ^ l ∈ R N l × C l \hat L_l\in\mathbb R^{N_l\times C_l} L^l∈RNl×Cl。
L ^ l \hat L_l L^l与 R l R_l Rl会作为下一尺度的输入;同时, L ^ l \hat L_l L^l与 L l L_l Ll会通过BEV编码器进行压缩。拼接多尺度特征后,检测头输出3D检测结果。
2. 3D激光雷达和4D雷达融合
对给定的激光雷达体素特征,首先找到半径 r l r_l rl内最近的 K l K_l Kl个雷达体素特征,组成 V l ∈ R N l × K l × C l V_l\in\mathbb R^{N_l\times K_l\times C_l} Vl∈RNl×Kl×Cl。其中
K l = ⌊ 64 2 l − 1 ⌋ , r l = ⌊ 8 2 l − 1 ⌋ K_l=\lfloor\frac{64}{2^{l-1}}\rfloor,r_l=\lfloor\frac{8}{2^{l-1}}\rfloor Kl=⌊2l−164⌋,rl=⌊2l−18⌋
3D-LRF模块:激光雷达能在常规条件下提供精确的3D信息,但在极端天气下易受噪声影响;雷达则对天气有鲁棒性,但其检测的位置精度较低。因此,通过雷达来确定激光雷达点是噪声还是实际物体,是可能的。
本文首先使用非空激光雷达体素 L l L_l Ll作为查询, V l V_l Vl作为键,计算激活关系(注意力图):
a t t n ( ( L l ) i , ( V l ) i ) = softmax ( ( L l ) i ( V l ) i T ) attn((L_l)_i,(V_l)_i)=\text{softmax}((L_l)_i(V_l)_i^T) attn((Ll)i,(Vl)i)=softmax((Ll)i(Vl)iT)
其中
(
⋅
)
i
(\cdot)_i
(⋅)i为第
i
i
i个非空体素。若一个激光雷达非空体素周围有多个非空雷达体素(如下图情况(b)),注意力值会用于增强
(
L
l
)
i
(L_l)_i
(Ll)i;否则(如下图情况(a)),会用于抑制
(
L
l
)
i
(L_l)_i
(Ll)i。
注意力图会与(用于雷达值特征提取的)值函数
w
l
v
(
⋅
)
w_l^v(\cdot)
wlv(⋅)相乘,获取融合特征:
( F l ) i = a t t n ( ( L l ) i , ( V l ) i ) w l v ( V l ) (F_l)_i=attn((L_l)_i,(V_l)_i)w_l^v(V_l) (Fl)i=attn((Ll)i,(Vl)i)wlv(Vl)
3. 以天气为条件的雷达流门控
本文将 F l F_l Fl与 L l L_l Ll融合得到 L ^ l \hat L_l L^l,并送入 l + 1 l+1 l+1层。同时, L ^ l \hat L_l L^l与 L l L_l Ll会被送入不同的BEV编码器,获取BEV特征 B ^ l \hat B_l B^l和 B l B_l Bl。
直接的求和融合可能导致在常规天气下的性能下降,因此本文提出根据天气调整雷达的信息流。本文使用预训练的图像天气分类器提供的图像特征 I l I_l Il,因为图像受到天气的影响最大,不利于3D检测,但容易判断天气情况。
图像特征会用于以天气为条件的雷达流门控网络(WRGNet),生成门控特征
G
l
G_l
Gl,控制
F
l
F_l
Fl到
L
l
L_l
Ll的信息流。
WRGNet:如上图所示,给定预训练图像特征
I
l
I_l
Il,本文首先将其广播并与
V
l
V_l
Vl拼接,然后使用门控层
w
l
g
(
⋅
)
w_l^g(\cdot)
wlg(⋅)和全局均值池化(GAP)获取门控特征:
G l = G A P ( w l g ( [ V l , Broadcast ( I l ) ] ) ) G_l=GAP(w_l^g([V_l,\text{Broadcast}(I_l)])) Gl=GAP(wlg([Vl,Broadcast(Il)]))
然后按照下式融合 L l L_l Ll与 V l V_l Vl:
L ^ l = L l + G l ⊗ F l \hat L_l=L_l+G_l\otimes F_l L^l=Ll+Gl⊗Fl
其中 ⊗ \otimes ⊗表示按元素乘法。这样,可平衡模型在不同天气情况下的性能。
4. BEV编码器和检测头
BEV编码器包括3D稀疏卷积、密集化和2D转置卷积。其中2D转置卷积用于保证各尺度特征有相同大小。
拼接各尺度BEV特征得到 B ∈ R H d × W d × 6 D B\in\mathbb R^{H_d\times W_d\times 6D} B∈RHd×Wd×6D后,送入检测头预测每个网格的分类和回归(中心点、大小和旋转)结果。
分类损失使用focal损失,回归损失使用SmoothL1损失。
总结:本文在实验部分称自己的方法为L+4DR融合,但该方法离不开图像数据。可进一步考虑利用图像数据的信息提高性能。