【CVPR 2024】Towards Robust 3D Object Detection with LiDAR and 4D Radar Fusion in Various Weather Cond

Towards Robust 3D Object Detection with LiDAR and 4D Radar Fusion in Various Weather Conditions
原文链接:https://openaccess.thecvf.com/content/CVPR2024/papers/Chae_Towards_Robust_3D_Object_Detection_with_LiDAR_and_4D_Radar_CVPR_2024_paper.pdf

简介:在各种天气下进行3D目标检测是安全自动驾驶的关键。目前的方法关注使用对天气不敏感的4D雷达,或与其它模态结合,但融合时没有考虑传感器特性和天气情况,且丢失部分对检测重要的高度信息。本文提出3D-LRF模块,考虑了激光雷达和4D雷达在3D空间的不同模式,并基于3D空间关系融合特征。此外,还提出以天气为条件的雷达流门控网络,根据天气情况控制融合信息流。实验表面本文方法能在各种天气条件下均达到SotA水平。

1. 概述

在这里插入图片描述
本文以激光雷达点云 L ∈ R N 0 × 3 L\in\mathbb R^{N_0\times 3} LRN0×3、4D雷达点云 R ∈ R M 0 × 3 R\in\mathbb R^{M_0\times 3} RRM0×3和图像 I ∈ R H × W × 3 I\in\mathbb R^{H\times W\times 3} IRH×W×3为输入。首先使用输入层将激光雷达和4D雷达点云映射到高维空间,然后3D稀疏卷积用于提取3D信息,得到体素特征 L l ∈ R N l × C l L_l\in\mathbb R^{N_l\times C_l} LlRNl×Cl R l ∈ R M l × C l R_l\in\mathbb R^{M_l\times C_l} RlRMl×Cl l l l为尺度序号)。使用3D-LRF模块融合得到 F l ∈ R N l × C l F_l\in\mathbb R^{N_l\times C_l} FlRNl×Cl

图像使用预训练的2D卷积网络,用于天气分类。使用以天气为条件的图像特征 I w ∈ R 1 × C l I_w\in\mathbb R^{1\times C_l} IwR1×Cl L l L_l Ll R l R_l Rl,WRGNet通过门控控制信息从4D毫米波雷达流向激光雷达,得到增强激光雷达特征 L ^ l ∈ R N l × C l \hat L_l\in\mathbb R^{N_l\times C_l} L^lRNl×Cl

L ^ l \hat L_l L^l R l R_l Rl会作为下一尺度的输入;同时, L ^ l \hat L_l L^l L l L_l Ll会通过BEV编码器进行压缩。拼接多尺度特征后,检测头输出3D检测结果。

2. 3D激光雷达和4D雷达融合

对给定的激光雷达体素特征,首先找到半径 r l r_l rl内最近的 K l K_l Kl个雷达体素特征,组成 V l ∈ R N l × K l × C l V_l\in\mathbb R^{N_l\times K_l\times C_l} VlRNl×Kl×Cl。其中

K l = ⌊ 64 2 l − 1 ⌋ , r l = ⌊ 8 2 l − 1 ⌋ K_l=\lfloor\frac{64}{2^{l-1}}\rfloor,r_l=\lfloor\frac{8}{2^{l-1}}\rfloor Kl=2l164,rl=2l18

3D-LRF模块:激光雷达能在常规条件下提供精确的3D信息,但在极端天气下易受噪声影响;雷达则对天气有鲁棒性,但其检测的位置精度较低。因此,通过雷达来确定激光雷达点是噪声还是实际物体,是可能的。

本文首先使用非空激光雷达体素 L l L_l Ll作为查询, V l V_l Vl作为键,计算激活关系(注意力图):

a t t n ( ( L l ) i , ( V l ) i ) = softmax ( ( L l ) i ( V l ) i T ) attn((L_l)_i,(V_l)_i)=\text{softmax}((L_l)_i(V_l)_i^T) attn((Ll)i,(Vl)i)=softmax((Ll)i(Vl)iT)

其中 ( ⋅ ) i (\cdot)_i ()i为第 i i i个非空体素。若一个激光雷达非空体素周围有多个非空雷达体素(如下图情况(b)),注意力值会用于增强 ( L l ) i (L_l)_i (Ll)i;否则(如下图情况(a)),会用于抑制 ( L l ) i (L_l)_i (Ll)i
在这里插入图片描述
注意力图会与(用于雷达值特征提取的)值函数 w l v ( ⋅ ) w_l^v(\cdot) wlv()相乘,获取融合特征:

( F l ) i = a t t n ( ( L l ) i , ( V l ) i ) w l v ( V l ) (F_l)_i=attn((L_l)_i,(V_l)_i)w_l^v(V_l) (Fl)i=attn((Ll)i,(Vl)i)wlv(Vl)

3. 以天气为条件的雷达流门控

本文将 F l F_l Fl L l L_l Ll融合得到 L ^ l \hat L_l L^l,并送入 l + 1 l+1 l+1层。同时, L ^ l \hat L_l L^l L l L_l Ll会被送入不同的BEV编码器,获取BEV特征 B ^ l \hat B_l B^l B l B_l Bl

直接的求和融合可能导致在常规天气下的性能下降,因此本文提出根据天气调整雷达的信息流。本文使用预训练的图像天气分类器提供的图像特征 I l I_l Il,因为图像受到天气的影响最大,不利于3D检测,但容易判断天气情况。

图像特征会用于以天气为条件的雷达流门控网络(WRGNet),生成门控特征 G l G_l Gl,控制 F l F_l Fl L l L_l Ll的信息流。
在这里插入图片描述
WRGNet:如上图所示,给定预训练图像特征 I l I_l Il,本文首先将其广播并与 V l V_l Vl拼接,然后使用门控层 w l g ( ⋅ ) w_l^g(\cdot) wlg()和全局均值池化(GAP)获取门控特征:

G l = G A P ( w l g ( [ V l , Broadcast ( I l ) ] ) ) G_l=GAP(w_l^g([V_l,\text{Broadcast}(I_l)])) Gl=GAP(wlg([Vl,Broadcast(Il)]))

然后按照下式融合 L l L_l Ll V l V_l Vl

L ^ l = L l + G l ⊗ F l \hat L_l=L_l+G_l\otimes F_l L^l=Ll+GlFl

其中 ⊗ \otimes 表示按元素乘法。这样,可平衡模型在不同天气情况下的性能。

4. BEV编码器和检测头

BEV编码器包括3D稀疏卷积、密集化和2D转置卷积。其中2D转置卷积用于保证各尺度特征有相同大小。

拼接各尺度BEV特征得到 B ∈ R H d × W d × 6 D B\in\mathbb R^{H_d\times W_d\times 6D} BRHd×Wd×6D后,送入检测头预测每个网格的分类和回归(中心点、大小和旋转)结果。

分类损失使用focal损失,回归损失使用SmoothL1损失。

总结:本文在实验部分称自己的方法为L+4DR融合,但该方法离不开图像数据。可进一步考虑利用图像数据的信息提高性能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

byzy

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值