自主驾驶中基于图像和点云融合的：综述

最新推荐文章于 2024-12-10 15:43:24 发布

阮扬才

最新推荐文章于 2024-12-10 15:43:24 发布

阅读量2.9k

点赞数 1

分类专栏：毕业设计三维点云文章标签：人工智能自动驾驶计算机视觉

本文链接：https://blog.csdn.net/weixin_43823175/article/details/122626562

版权

毕业设计三维点云专栏收录该内容

48 篇文章 14 订阅

订阅专栏

自主驾驶中基于图像和点云融合的：综述

（略读）

原文 Deep Learning for Image and Point Cloud Fusion
in Autonomous Driving: A Review

论文地址：https://arxiv.org/abs/2004.05224

摘要

摘要：在过去的几年中，自动驾驶汽车得到了快速的发展。然而，由于驾驶环境的复杂性和动态性，实现完全自主并非易事。因此，自动驾驶车辆配备了一套不同的传感器，以确保鲁棒、准确的环境感知。特别是，CameralDar融合正在成为一个新兴的研究主题。然而，到目前为止，还没有关于基于深度学习的相机激光雷达融合方法的评论。为了弥合这一差距并推动未来的研究，本文致力于回顾最近利用图像和点云的基于深度学习的数据融合方法。本综述简要概述了图像和点云数据处理的深入学习。接着深入回顾了基于各自融合层次组织的相机-激光雷达融合方法，包括深度完成、目标检测、语义分割、跟踪和在线交叉传感器校准。此外，我们在公开的数据集上比较了这些方法。最后，我们发现了当前学术研究和实际应用之间的差距和挑战。基于这些观察，我们提供了我们的见解，并指出了有希望的研究方向。

介绍

最近在深度学习和传感器技术方面的突破推动了自动驾驶技术的快速发展，这有可能改善道路安全、交通效率和个人机动性[1]-[3]。然而，技术挑战和外部感知传感器的成本限制了当前自主驾驶系统在受限和受控环境中的少量应用。一个关键挑战是实时获得对车辆3D周围环境的充分准确理解。为此，传感器融合（sensor fusion）已成为一个新兴的研究主题，它利用具有互补特性的多种类型的传感器来增强感知并降低成本。
特别是，最近的深度学习进展显著提高了相机激光雷达融合算法的性能。相机和激光雷达具有互补的特性，这使得相机-激光雷达融合模型比其他传感器融合配置（雷达相机、激光雷达等）更有效、更受欢迎。更具体地说，基于视觉的感知系统以低成本获得令人满意的性能，通常优于人类专家[4]，[5]。然而，单摄像头感知系统无法提供可靠的3D几何图形，这对于自动驾驶至关重要[6]，[7]。另一方面，立体相机可以提供3D几何体，但这样做的计算成本很高，并且在高遮挡和无纹理环境中难以实现[8]–[10]。此外，基于摄像头的感知系统难以应对复杂或恶劣的照明条件，这限制了其全天候能力[11]。相反，激光雷达可以提供高精度的三维几何图形，并且对环境光具有不变性。然而，移动激光雷达受低分辨率（16到128个通道）、低刷新率（10Hz）、恶劣天气条件（大雨、大雾和大雪）和高成本的限制。为了缓解这些挑战，许多工作将这两个互补传感器结合起来，并显示出比a模式方法显著的性能优势。因此，本文重点回顾了当前用于相机激光雷达融合的深度学习融合策略。

相机激光雷达融合不是一项简单的任务。首先，摄影机通过将真实世界投影到图像平面来记录真实世界，而点云保留三维几何体。
此外，在数据结构方面，点云是不规则的、无序的和连续的，而图像是规则的、有序的和离散的。点云和图像之间的这些特征差异导致了不同的特征提取方法。图1显示了图像和点特征之间的比较。
先前关于多模态数据融合深度学习方法的综述[12]、[13]涵盖了广泛的传感器，包括雷达、摄像机、激光雷达、超声波、IMU、里程表、GNSS和HD地图。本文仅关注相机激光雷达融合，因此能够对各种方法进行更详细的综述。此外，我们还涵盖了更广泛的感知相关主题（深度对齐、动态和静态目标检测、语义分割、跟踪和在线交叉传感器校准），这些主题相互关联，并未完全包含在之前的综述中[13]。本文的贡献总结如下：

•据我们所知，本文是第一篇关于自主驾驶中基于深度学习的图像和点云融合方法的综述，包括深度补全、动态和静态目标检测、语义分割、，跟踪和在线交叉传感器校准。
•本文根据融合方法对方法进行组织和审查。此外，本文还介绍了最新的（2014-2020年）概述和最先进的相机激光雷达融合方法的性能比较。
•本文提出了被忽视的开放性问题，如开放集检测和传感器不可知框架，这些问题对于自动驾驶技术的实际部署至关重要。此外，还总结了开放性挑战的趋势和可能的研究方向。
本文在第二节中首先简要概述了图像和点云数据的深度学习方法。
第三至第八节分别介绍了基于相机激光雷达的深度补全、动态目标检测、静止目标检测、语义分割、目标跟踪和在线传感器校准。第七节讨论了趋势、公开挑战和有希望的方向。最后，第八节概述。图2显示了本次调查的总体结构和相应的主题

深度学习概述

A.图像的深度学习

图像卷积神经网络（CNN）的深度学习是图像处理和理解中最有效、最强大的深度学习模型之一。与多层感知器（MLP）相比，CNN具有平移不变性、权值少、利用层次模式等特点，使其在图像语义提取方面具有很高的效率。CNN的隐藏层由卷积层、批量规范化层、激活层和池层组成，这些层都是端到端训练的。这种层次结构通过增加抽象层次和感受域来提取图像特征，从而实现高级语义的学习。

B.点云深度学习

点云是一组数据点，是激光雷达对被探测物体表面的测量。在数据结构上，点云具有稀疏性、不规则性、无序性和连续性。点云以3D结构和逐点特征（反射强度、颜色、法线等）对信息进行编码，这些特征对比例、刚性变换和置换不变性。这些特征使得点云上的特征提取对现有深度学习模型具有挑战性，这需要修改现有模型或开发新模型。因此，本节重点介绍点云处理的常用方法。
1）基于体积表示：体积表示将点云划分为固定分辨率的三维栅格，其中每个栅格/体素的特征都是手工制作或学习的。此表示法与标准三维卷积[14]–[16]兼容。[17]中提出了几种技术，以减少过拟合、方向敏感性和捕捉物体内部结构。然而，体积表示在体素化过程中会丢失空间分辨率和细粒度三维几何体，这限制了其性能。
此外，试图提高其空间分辨率（更密集的体素）会导致计算和内存占用按立方体增长，使其无法缩放。
2）基于索引/树表示：为了缓解高空间分辨率和计算成本之间的限制，提出了利用树状数据结构的自适应分辨率划分方法，如kd树[18]、[19]、八叉树[20]–[22]。通过将点云划分为一系列不平衡的树，可以根据其点密度对区域进行分区。这允许具有较低点密度的区域具有较低的分辨率，从而减少不必要的计算和内存占用。点特征与预构建的树结构一起提取。

3）基于二维视图表示：通过将点云投影到多个二维视图平面来生成二维视图/多视图。这些渲染的多视图图像可以通过标准2D卷积进行处理，来自这些视图的特征通过视图池层进行聚合[23]。因此，通过将点云变换为图像来解决置换不变性问题，通过聚集不同视图的特征来实现平移不变性。Qi等人[17]将体积表示与通过球体渲染生成的多视图相结合。不幸的是，2D views方法在视图渲染过程中会丢失3D几何体信息，并且难以进行逐点标签预测[19]。

4）基于图形表示：点云可以表示为图形，可以在空间域或光谱域的图形上实现卷积运算[24]–[26]。对于空间域中的图卷积，操作由MLP在空间相邻点上执行。谱域图卷积将卷积扩展为拉普拉斯谱图上的谱滤波[27]–[29]。
5）基于点表示：基于点表示的方法使用点云，而无需将其转换为中间数据表示。这方面的早期工作采用共享多层感知器（MLP）来处理点云[30]，[31]，而最近的工作集中于定义点的专门卷积运算[32]-[38]。
点云直接学习的开创性工作之一是PointNet[30]，[31]，它使用一个独立的T-Net模块来对齐点云，并使用共享的MLP来处理单个点以进行逐点特征提取。
PointNet的计算复杂度随着输入数量的增加而线性增加，因此与基于体积的方法相比，PointNet的可伸缩性更强。为了实现置换不变性，通过对所有点相同的共享MLP提取点特征。这些特征通过对称操作（即最大池）聚合，对称操作也是置换不变的。PointNet的特征提取过程定义为：
$g ({x1, . . . , xn}) ≈ fsym (h (x1) , . . . , h (xn))$
其中x表示输入点，h表示逐点特征提取函数（即共享MLP），fsym表示对称函数（即最大轮询），g是我们想要近似的一般函数。
但是，点网无法提取不同级别的局部点间几何体。为了缓解这一挑战，Qi等人[30]扩展了点网，通过将点分组到多个集合并在本地应用点网，从不同级别提取特征。为了降低PointNet++[30]的计算和内存成本，RandLA Net[39]将随机点采样模块和基于注意的局部特征聚合模块分层堆叠，以逐步增加感受野，同时保持高效率。
与基于点网的方法不同，点之间的空间关系在逐点卷积中显式建模。逐点卷积的目的是将标准的二维离散卷积推广到连续的三维空间。主要的挑战是用连续权函数代替标准卷积中的离散权滤波器。使用PointConv[40]中的MLP以及KPConv[38]和PCNN[33]中的相关函数来近似该连续权重函数。更具体地说，PCNN[33]将卷积核定义为具有权重的3D点。高斯相关函数取核点和输入点的坐标，用于计算任意给定三维坐标下的加权矩阵。KPConv[38]遵循这一思想，但使用线性相关函数。
此外，KPCONV[38]分层应用于局部点面片，这类似于标准CNN的概念。这是输入点x处的一般逐点卷积F∈ 三维连续空间中的R3定义为：

(F ∗ h)(x) = ∑ h (xi − x) fi (2)
xi∈Nx
其中h是每点核函数，该函数计算给定输入点和核点坐标的加权矩阵。席和FI是X的第四相邻点及其对应特征（强度、颜色等）。Nx是输入点x的所有相邻点，使用KNN或半径邻域确定。

六、语义分割

本节回顾了现有的用于二维语义分割、三维语义分割和实例分割的相机-激光雷达融合方法。2D/3D语义分割旨在预测每像素和每点类别标签，而实例分割也关注单个实例。
图8和图9显示了3D语义分段网络和典型模型架构的时间线。

A.2D语义分割

1）特征级融合：稀疏和密集[46]提出了一种基于NASNet[53]的自动编码器网络，可用于利用图像和稀疏深度进行2D语义分割或深度完成。在融合到共享解码器之前，图像和相应的稀疏深度图由两个并行编码器处理。Valada等人[55]采用了不同深度的多阶段特征级融合，以促进语义分割。Caltagirone等人[90]利用上采样的深度图像和图像进行二维语义分割。该密集深度图像使用稀疏深度图像（来自点云）和图像进行上采样[108]。
性能最好的交叉融合模型在两个平行的CNN分支中处理密集深度图像和图像数据，中间有跳跃连接，并在最后的卷积层中融合两个特征映射。

B.三维语义分割

1）特征级融合：Dai和Nießner[109]提出了3DMV，一种用于三维语义分割的多视图网络，它融合了体素化点云中的图像语义和点特征。二维CNN从多幅对齐的图像中提取图像特征并投影回三维空间。
这些多视图图像特征在输入3D CNN进行逐体素语义预测之前，是最大混合体素的，并与3D几何体融合。3DMV在ScanNet[110]基准上执行了其他基于体素的方法。然而，基于体素的方法的性能取决于体素分辨率，并受到体素边界伪影的阻碍。
为了缓解点云体素化带来的问题，Chiang等人[111]提出了一种基于点的语义分割框架（UPF），该框架还能够有效地表示图像特征、几何结构和全局上下文先验知识。使用语义分割网络提取渲染多视图图像的特征，并投影到三维空间进行逐点特征融合。该融合点云由两个基于PointNet++[30]的编码器处理，以提取局部和全局特征，然后送入解码器进行逐点语义标签预测。类似地，Multi-ViewPointNet（MVPNet）[112]融合了多视图图像语义和3D几何体，以预测逐点语义标签。
排列多面体格表示是多模态数据融合和处理的另一种方法。Su等人[113]的稀疏晶格网络（SPLATNet）采用稀疏双边卷积来实现空间感知表示学习和多模态（图像和点云）推理。在这种方法中，点云特征被插值到一个dl维的准正六面体晶格上，其中双边卷积被应用。结果将插值回点云。使用CNN从多视图图像中提取图像特征，并投影到3D晶格空间以与3D特征组合。CNN对融合后的特征图进行进一步处理，以预测每个点的标签。