3D Vehicle Detection Using Multi-Level Fusion From Point Clouds and Images (MLF)论文笔记

本文提出了一种结合相机和激光雷达的多层次融合方法进行3D车辆检测。通过早期融合增强点云的纹理信息,3D区域提案网络从体素和BEV预测边界框,再通过深度融合模块提升正样本置信度,降低误检。实验验证了该方法的有效性,尤其在解决点云稀疏、遮挡物体检测和远程物体检测问题上表现突出。
摘要由CSDN通过智能技术生成

原文链接:3D Vehicle Detection Using Multi-Level Fusion From Point Clouds and Images | IEEE Journals & Magazine | IEEE Xplore

I.引言

        基于点云的方法稀疏、分布不均匀,容易漏掉被遮挡物体以及遥远物体的检测;且缺乏纹理信息,容易错误检测形状相似的物体。

        本文提出基于相机和激光雷达多层次融合的方法,如下图所示。数据层次的融合使得激光雷达点云带有来自RGB图像的粗糙纹理信息;然后将点云分别编码为体素和BEV,其特征融合后通过粗糙-细化检测头生成高召回率的提案。该检测头模拟了两阶段检测网络,其中编码器生成粗糙边界框,然后由解码器细化。最后深度融合模块通过进一步融合图像特征提高正样本的置信度,减少误检。

        实验结果证明了有效性,可视化表明本文方法可以解决第一段中提到的问题。

III.3D车辆检测器

        网络包含三部分:早期融合(点云和图像数据级别的融合)、RPN网络(从体素和BEV预测边界框、提取图像特征)以及深度融合(使用融合特征进行边界框细化)。

A.早期融合

        使用传感器校准参数将点和像素匹配,然后将色彩信息附加到点的特征,以丰富点的语义信息,从而避免特征提取器对物体形状的依赖性。落在图像外的点被丢弃。

B.3D区域提案网络

        输入体素和BEV特征,融合后输入粗糙-细化检测头以获得高召回率的提案。

1)点云表达

        使用多种点云表达可以提高模型的鲁棒性。

        a)体素网格:将检测区域划分为网格,然后设置每个网格的点数阈值T(当点数大于T时随机采样T个点,小于T时使用零填充)。此外,每个点的特征被附加上其与该体素内点平均坐标的偏移量。

        b)BEV:虽然投影会造成信息损失,但物体在BEV下占据独立空间,能反应物体的相对位置关系,减小遮挡和重叠带来的问题。将点云编码为六通道特征图(五个高度图和一个密度图),其中检测区域被离散化为x\textup{-}y平面上的网格,在五个均匀分布的高度区间分别统计每个网格内点的最大高度,得到五张高度图;密度图的编码为

\min(1.0,\frac{\log(N+1)}{\log 16})

其中N为网格内的点数。

2)特征提取器

        图像和BEV的特征提取使用传统卷积,体素特征提取使用SECOND的方法,即先用体素特征提取器(VFE)提取每个体素的特征,然后使用稀疏卷积。

        a)体素网格分支:如下图所示。体素特征提取器包含线性层、最大池化和拼接操作;稀疏卷积网络用于提取全局特征。

        b)BEV和图像分支:BEV分支使用卷积和最大池化,以匹配体素特征的大小,生成与体素特征相同大小的特征图。图像分支使用特征金字塔网络(FPN),其中编码器下采样特征,解码器上采样特征。

        c)粗糙-细化检测头:深层特征有丰富的语义信息;由于卷积是平移不变的,深层特征的位置信息变得模糊,而浅层特征保留着更精确的位置信息。

        如上图所示,融合体素和BEV特征后,粗糙回归器从编码器的各尺度特征获得提案以避免丢失正样本(提高召回率),然后细化回归器在解码器最后一层进行RoI池化并用其细化提案。两次非最大抑制(NMS)分别在粗糙提案和细化提案生成后进行。

C.深度融合

        考虑到来自远处物体和被遮挡物体的点很少,使用深度融合来提高正样本的置信度。如图1所示,图像特征和点云特征融合后通过轻量级全卷积网络(FCN)得到检测结果。由于在3D RPN阶段进行了NMS,该部分的提案数量小,相应的推断时间也很小。

D.锚框和目标

        取数据集内车辆平均尺寸,在平均高度处放置锚框;根据IoU进行正负锚框的分配;回归目标的编码与SECOND相同(见此文附录D(2)(a)损失函数之前的部分),即通过归一化回归目标提高检测鲁棒性。

E.损失函数

        包含粗糙提案损失、细化提案损失和细化结果损失,每个损失包含分类损失(focal损失)、回归损失(SmoothL1损失;对于朝向角回归的是其正弦偏移量以避免角度不连续性)和朝向分类损失(交叉熵损失,判断朝向第一二象限还是第三四象限)。

IV.实验

B.消融研究

        2)不同任务的损失权重:由于朝向分类是辅助任务,其损失对应的权重最小;实验表明应该更加关注回归损失以获得更好的性能。

        3)粗糙-细化检测头:与单一尺度检测头以及多尺度检测头相比,本文的粗糙-细化检测头的性能更佳,特别是在KITTI困难难度下的检测。

        4)融合模式:与无图像融合、仅早期融合、仅深度融合进行比较,使用两种融合方法的模型性能有大幅提升。

        5)PR曲线:比较基于点云的网络以及基于融合的网络,前者在低召回率时的检测准确率比后者低,表明融合方法可以减小误检率。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
The field of 3D point cloud semantic segmentation has been rapidly growing in recent years, with various deep learning approaches being developed to tackle this challenging task. One such approach is the U-Next framework, which has shown promising results in enhancing the semantic segmentation of 3D point clouds. The U-Next framework is a small but powerful network that is designed to extract features from point clouds and perform semantic segmentation. It is based on the U-Net architecture, which is a popular architecture used in image segmentation tasks. The U-Next framework consists of an encoder and a decoder, with skip connections between them to preserve spatial information. One of the key advantages of the U-Next framework is its ability to handle large-scale point clouds efficiently. It achieves this by using a hierarchical sampling strategy that reduces the number of points in each layer, while still preserving the overall structure of the point cloud. This allows the network to process large-scale point clouds in a more efficient manner, which is crucial for real-world applications. Another important aspect of the U-Next framework is its use of multi-scale feature fusion. This involves combining features from different scales of the point cloud to improve the accuracy of the segmentation. By fusing features from multiple scales, the network is able to capture both local and global context, which is important for accurately segmenting complex 3D scenes. Overall, the U-Next framework is a powerful tool for enhancing the semantic segmentation of 3D point clouds. Its small size and efficient processing make it ideal for real-time applications, while its multi-scale feature fusion allows it to accurately segment complex scenes. As the field of 3D point cloud semantic segmentation continues to grow, the U-Next framework is likely to play an increasingly important role in advancing this area of research.
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

byzy

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值