【论文笔记】HVDetFusion: A Simple and Robust Camera-Radar Fusion Framework

最新推荐文章于 2024-07-25 17:13:21 发布

byzy

最新推荐文章于 2024-07-25 17:13:21 发布

阅读量657

点赞数 1

分类专栏：多模态融合3D感知（目标检测为主） # 雷达与图像融合文章标签：论文阅读目标检测自动驾驶深度学习计算机视觉

本文链接：https://blog.csdn.net/weixin_45657478/article/details/131920231

版权

多模态融合3D感知（目标检测为主）同时被 2 个专栏收录

31 篇文章 35 订阅

订阅专栏

雷达与图像融合

13 篇文章 5 订阅

订阅专栏

原文链接：https://arxiv.org/abs/2307.11323

1 引言

本文基于BEVDet系列模型，提出了一种两阶段检测器，称为HVDetFusion。

3 HVDetFusion方法

在这里插入图片描述
如图所示，本文的模型能仅使用多视图或单一视图图像作为输入，也可加入雷达点云数据。将图像进行数据增广以后，输入图像主干网络提取图像特征。图像特征的一部分被输入到深度网络中，另一部分与深度网络的输出一起用于视图变换。视图变换会把多视图图像的特征融合到一起。训练过程中，还使用激光雷达点云的精确位置信息来调整BEV特征，并通过检测头获取预测结果。加入雷达数据的情况下，会过滤雷达点云后与检测头的输出特征融合，输入到二级检测头。

3.2 雷达关联

使用BEVDet4D作为基本网络，然后添加辅助分支处理雷达数据，获取深度和速度信息并与主要检测分支融合。为实现理想融合，需要保证雷达点云中物体的位置信息与正确的图像特征区域匹配。因此在融合之前，先使用图像特征的分布作为物体位置的先验，过滤掉雷达点云中的无效部分。该过程如下图所示。
在这里插入图片描述
然后将点云位置信息处理为BEV下的2D边界框。当两个2D边界框重叠时，将重叠位置的中线作为新的边界。另一方面，将图像检测器的回归结果作为真值，然后计算来自雷达的2D边界框和真值之间的IoU。上述过程有两个超参数：BEV边界框缩放因子 $\alpha$ 和控制匹配难易度的阈值 $\beta$ 。通过减小 $\beta$ 或增大 $\alpha$ ，每个物体区域就能包含更多的雷达点云信息。当选择了合适的超参数时，有较大位置偏移的噪声点就能被过滤。
过滤雷达的2D边界框后，将每个2D边界框相应的雷达点的位置和速度信息聚合为一个张量，并分配到新生成的雷达BEV特征图中的相应区域（这些区域与已匹配的边界框一一对应）。雷达特征图与BEV编码模块生成的BEV特征图拼接并输入到二级检测头，进一步提高检测精度。
上述过程如下图所示。
在这里插入图片描述

4 实施细节

4.2 融合过程

使用初次检测头的位置回归值作为位置先验，过滤假阳性雷达点；BEV边界框的参考大小设置为长和宽均为1m；融合时不考虑行人和交通锥等小物体；使用CenterHead作为融合后的回归头；为避免雷达点云过于稀疏，使用当前帧之前的两帧作为补充。

5 结果

5.1 nuScenes验证集上的结果

与其余方法相比，本文的方法能在使用更低分辨率图像的情况下有相对更高的性能。HVDetFusion的速度估计精度较高，这归因于多帧融合与雷达点云的利用。

5.2 nuScenes测试集上的结果

使用测试时数据增广，HVDetFusion能大幅超过之前最好的融合结果CRN。与CRN相比，本文方法在小物体上的检测精度明显更高。

6 消融研究

实验表明，与BEVDet系列相比，更换更先进的图像主干、训练时考虑未来帧、使用COCO的预训练模型、使用更大的图像分辨率、引入雷达信号均能提高性能。

byzy

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
7
评论
【论文笔记】HVDetFusion: A Simple and Robust Camera-Radar Fusion Framework

【论文笔记】HVDetFusion: A Simple and Robust Camera-Radar Fusion Framework
复制链接

扫一扫