3D Vehicle Detection Using Multi-Level Fusion From Point Clouds and Images （MLF）论文笔记

最新推荐文章于 2023-01-09 12:12:21 发布

byzy

最新推荐文章于 2023-01-09 12:12:21 发布

阅读量441

点赞数

分类专栏：多模态融合3D感知（目标检测为主） # 激光雷达与图像融合文章标签：深度学习目标检测自动驾驶

本文链接：https://blog.csdn.net/weixin_45657478/article/details/126348230

版权

多模态融合3D感知（目标检测为主）同时被 2 个专栏收录

34 篇文章 36 订阅

订阅专栏

激光雷达与图像融合

18 篇文章 5 订阅

订阅专栏

本文提出了一种结合相机和激光雷达的多层次融合方法进行3D车辆检测。通过早期融合增强点云的纹理信息，3D区域提案网络从体素和BEV预测边界框，再通过深度融合模块提升正样本置信度，降低误检。实验验证了该方法的有效性，尤其在解决点云稀疏、遮挡物体检测和远程物体检测问题上表现突出。

摘要由CSDN通过智能技术生成

原文链接：3D Vehicle Detection Using Multi-Level Fusion From Point Clouds and Images | IEEE Journals & Magazine | IEEE Xplore

I.引言

基于点云的方法稀疏、分布不均匀，容易漏掉被遮挡物体以及遥远物体的检测；且缺乏纹理信息，容易错误检测形状相似的物体。

本文提出基于相机和激光雷达多层次融合的方法，如下图所示。数据层次的融合使得激光雷达点云带有来自RGB图像的粗糙纹理信息；然后将点云分别编码为体素和BEV，其特征融合后通过粗糙-细化检测头生成高召回率的提案。该检测头模拟了两阶段检测网络，其中编码器生成粗糙边界框，然后由解码器细化。最后深度融合模块通过进一步融合图像特征提高正样本的置信度，减少误检。

实验结果证明了有效性，可视化表明本文方法可以解决第一段中提到的问题。

III.3D车辆检测器

网络包含三部分：早期融合（点云和图像数据级别的融合）、RPN网络（从体素和BEV预测边界框、提取图像特征）以及深度融合（使用融合特征进行边界框细化）。

A.早期融合

使用传感器校准参数将点和像素匹配，然后将色彩信息附加到点的特征，以丰富点的语义信息，从而避免特征提取器对物体形状的依赖性。落在图像外的点被丢弃。

B.3D区域提案网络

输入体素和BEV特征，融合后输入粗糙-细化检测头以获得高召回率的提案。

1）点云表达

使用多种点云表达可以提高模型的鲁棒性。

a）体素网格：将检测区域划分为网格，然后设置每个网格的点数阈值 $T$ （当点数大于 $T$ 时随机采样 $T$ 个点，小于 $T$ 时使用零填充）。此外，每个点的特征被附加上其与该体素内点平均坐标的偏移量。

b）BEV：虽然投影会造成信息损失，但物体在BEV下占据独立空间，能反应物体的相对位置关系，减小遮挡和重叠带来的问题。将点云编码为六通道特征图（五个高度图和一个密度图），其中检测区域被离散化为 $x\textup{-}y$ 平面上的网格，在五个均匀分布的高度区间分别统计每个网格内点的最大高度，得到五张高度图；密度图的编码为

$\min(1.0,\frac{\log(N+1)}{\log 16})$

其中 $N$ 为网格内的点数。

2）特征提取器

图像和BEV的特征提取使用传统卷积，体素特征提取使用SECOND的方法，即先用体素特征提取器（VFE）提取每个体素的特征，然后使用稀疏卷积。

a）体素网格分支：如下图所示。体素特征提取器包含线性层、最大池化和拼接操作；稀疏卷积网络用于提取全局特征。

b）BEV和图像分支：BEV分支使用卷积和最大池化，以匹配体素特征的大小，生成与体素特征相同大小的特征图。图像分支使用特征金字塔网络（FPN），其中编码器下采样特征，解码器上采样特征。

c）粗糙-细化检测头：深层特征有丰富的语义信息；由于卷积是平移不变的，深层特征的位置信息变得模糊，而浅层特征保留着更精确的位置信息。

如上图所示，融合体素和BEV特征后，粗糙回归器从编码器的各尺度特征获得提案以避免丢失正样本（提高召回率），然后细化回归器在解码器最后一层进行RoI池化并用其细化提案。两次非最大抑制（NMS）分别在粗糙提案和细化提案生成后进行。

C.深度融合

考虑到来自远处物体和被遮挡物体的点很少，使用深度融合来提高正样本的置信度。如图1所示，图像特征和点云特征融合后通过轻量级全卷积网络（FCN）得到检测结果。由于在3D RPN阶段进行了NMS，该部分的提案数量小，相应的推断时间也很小。

D.锚框和目标

取数据集内车辆平均尺寸，在平均高度处放置锚框；根据IoU进行正负锚框的分配；回归目标的编码与SECOND相同（见此文附录D(2)(a)损失函数之前的部分），即通过归一化回归目标提高检测鲁棒性。

E.损失函数

包含粗糙提案损失、细化提案损失和细化结果损失，每个损失包含分类损失（focal损失）、回归损失（SmoothL1损失；对于朝向角回归的是其正弦偏移量以避免角度不连续性）和朝向分类损失（交叉熵损失，判断朝向第一二象限还是第三四象限）。

IV.实验

B.消融研究

2）不同任务的损失权重：由于朝向分类是辅助任务，其损失对应的权重最小；实验表明应该更加关注回归损失以获得更好的性能。

3）粗糙-细化检测头：与单一尺度检测头以及多尺度检测头相比，本文的粗糙-细化检测头的性能更佳，特别是在KITTI困难难度下的检测。

4）融合模式：与无图像融合、仅早期融合、仅深度融合进行比较，使用两种融合方法的模型性能有大幅提升。

5）PR曲线：比较基于点云的网络以及基于融合的网络，前者在低召回率时的检测准确率比后者低，表明融合方法可以减小误检率。

byzy

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
1
评论
3D Vehicle Detection Using Multi-Level Fusion From Point Clouds and Images （MLF）论文笔记

3D Vehicle Detection Using Multi-Level Fusion From Point Clouds and Images 论文笔记
复制链接

扫一扫