w~自动驾驶~合集16_stlane3d-CSDN博客

本文链接：https://blog.csdn.net/weixin_49587977/article/details/144951125

我自己的原文哦~ https://blog.51cto.com/whaosoft/13867750

#SIMPL

用于自动驾驶的简单高效的多智能体运动预测基准

原标题：SIMPL: A Simple and Efficient Multi-agent Motion Prediction Baseline for Autonomous Driving

论文链接：https://arxiv.org/pdf/2402.02519.pdf

代码链接：https://github.com/HKUST-Aerial-Robotics/SIMPL

作者单位：香港科技大学大疆

论文思路：

本文提出了一种用于自动驾驶车辆的简单高效的运动预测基线（SIMPL）。与传统的以代理为中心(agent-centric) 的方法（精度高但需要重复计算）和以场景为中心(scene-centric) 的方法（精度和通用性受到影响）不同，SIMPL 可以为所有相关交通参与者提供实时、准确的运动预测。为了提高准确性和推理速度，本文提出了一种紧凑而高效的全局特征融合模块，该模块以对称方式执行定向消息传递，使网络能够在单次前馈传递中预测所有道路使用者的未来运动，并减轻视点移动导致的精度损失。此外，本文研究了在轨迹解码中使用 Bernstein basis polynomials 进行连续轨迹参数化，允许在任何所需时间点评估状态及其高阶导数，这对于下游规划任务很有价值。作为强大的基线，与其他最先进的方法相比，SIMPL 在 Argoverse 1 和 2 运动预测基准上表现出极具竞争力的性能。此外，其轻量级设计和低推理延迟使 SIMPL 具有高度可扩展性，并有望用于现实世界的机载部署。

网络设计：

周围交通参与者的运动预测对于自动驾驶汽车至关重要，尤其是下游决策和规划模块，因为准确及时的意图和轨迹预测将显着提高安全性和乘坐舒适性。

对于基于学习的运动预测，最重要的主题之一是上下文表示。早期的方法通常将周围场景表示为多通道鸟瞰图像 [1]–[4]。相比之下，最近的研究越来越多地采用矢量化场景表示[5]-[13]，其中使用带有地理坐标的点集或多段线(polylines) 来标注位置和几何形状，从而提高保真度并扩大感受野。然而，对于光栅化和矢量化表示，都存在一个关键问题：我们应该如何为所有这些元素选择合适的参考系？一种直接的方法是描述共享坐标系（以场景为中心）内的所有实例，例如以自动驾驶车辆为中心的坐标系，并直接使用坐标作为输入特征。这使我们能够在一次前馈传递中对多个目标代理进行预测 [8, 14]。然而，使用全局坐标作为输入，通常会在单个前馈传递中对多个目标代理进行预测 [8, 14]。然而，使用全局坐标作为输入（通常会在很大范围内变化）将大大加剧任务的固有复杂性，导致网络性能下降和对新场景的适应性有限。为了提高准确性和鲁棒性，一种常见的解决方案是根据目标代理的当前状态对场景上下文进行归一化处理 [5, 7, 10]-[13]（以代理为中心）。这意味着必须对每个目标代理重复执行归一化过程和特征编码，从而获得更好的性能，但代价是冗余计算。因此，有必要探索一种能够有效地编码多个目标的特征，同时保持对视角(perspective) 变化的鲁棒性的方法。

对于运动预测的下游模块，例如决策和运动规划，不仅需要考虑未来位置，还需要考虑航向、速度和其他高阶导数。例如，周围车辆的预测航向在塑造未来时空占用方面发挥着关键作用，这是确保安全和稳健的运动规划的关键因素[15, 16]。此外，在不遵守物理约束的情况下独立预测高阶量可能会导致预测结果不一致[17, 18]。例如，尽管速度为零，但它可能会产生位置位移，从而导致规划模块混乱。

本文提出了用于自动驾驶系统的 SIMPL（简单高效的运动预测基线），解决了现实车载应用中多智能体轨迹预测的关键问题。首先，本文引入以实例为中心的场景表示，然后引入 symmetric fusion Transformer（SFT），从而能够在单次前馈传递中对所有代理进行有效的轨迹预测，同时保留视点不变属性带来的准确性和鲁棒性。与最近基于对称上下文融合的其他工作[19]-[21]相比，所提出的SFT明显更简单、更轻量级且更易于实现，使其适合机载部署。

其次，本文引入了一种基于 Bernstein basis polynomial（也称为 Bezier curve）的预测轨迹的新颖参数化方法。这种连续表示确保了平滑性，并能够在任何给定时间点轻松评估精确状态及其高阶导数。本文的实证研究表明，与估计 monomial basis polynomials 的系数相比，学习预测 Bezier curves 的控制点更加有效且数值稳定。

最后，所提出的组件被很好地集成到一个简单而高效的模型中。本文在两个大型运动预测数据集上评估了所提出的方法[22, 23]，实验结果表明，尽管 SIMPL 具有简化的设计，但与其他最先进的方法相比仍具有很强的竞争力。更重要的是，SIMPL通过较少的可学习参数和较低的推理延迟实现了高效的多智能体轨迹预测，而没有牺牲量化性能，这对于真实世界的机载部署来说是充满希望的。本文还强调，作为一个强大的基线，SIMPL 具有出色的可扩展性。简洁的架构便于与最新的运动预测进展直接整合，为进一步提高整体性能提供了机会。

图 1：复杂驾驶场景中多智能体运动预测的图示。本文的方法能够实时地同时为所有相关代理生成合理的假设。自车和其他车辆分别以红色和蓝色显示。根据时间戳使用渐变颜色来可视化预测轨迹。请参考附带的视频了解更多示例。

图 2：SIMPL 示意图。本文利用尽可能简单的网络架构来证明其有效性。语义实例的局部特征由简单的编码器处理，而实例间特征则保留在相对位置嵌入中。多模态轨迹预测结果由运动解码器在提出的 symmetric feature Transformer 之后生成。

图 3：相对位姿计算示意图。

图 4：所提出的 L 层 symmetric fusion Transformer (SFT) 的图示。实例 tokens 和相对位置嵌入（RPE）在每个SFT层中都会循环更新。

图 5：2D septic Bezier curve（左）。

实验结果：

总结：

本文提出了一种简单高效的自动驾驶多智能体运动预测基线。利用所提出的 symmetric fusion Transformer，所提出的方法实现了高效的全局特征融合，并保持了针对视点移动的鲁棒性。基于 Bernstein basis polynomials 的连续轨迹参数化提供了与下游模块更高的兼容性。在大规模公共数据集上的实验结果表明，SIMPL 在模型大小和推理速度方面更具优势，同时获得与其他最先进方法相同水平的精度。

#DeepPointMap

本文提出了一种统一的架构DeepPointMap，既能实现高效的内存使用的地图表示，又能实现准确的多尺度定位任务（如里程计和闭环检测）。一举解决定位和地图构建问题

论文链接：https://arxiv.org/pdf/2312.02684.pdf

SLAM是机器人和自动驾驶领域中的一个基本问题，旨在在探索环境的同时重建地图并估计机器人在其中的位置。激光雷达的点云数据被广泛应用于捕捉环境的复杂三维结构。然而，现有的SLAM方法要么依赖于密集的点云数据以实现高精度定位，要么使用通用的描述符来减小地图的大小。这两个方面似乎存在冲突。因此，我们提出了一种统一的架构，DeepPointMap（DPM），在这两个方面都具有出色的优势。

提出一种名为DeepPointMap的深度学习框架，用于解决LiDAR SLAM中的定位和地图构建问题。传统的LiDAR SLAM方法要么依赖于密集的点云数据以实现高精度定位，要么使用通用的描述符来减小地图的大小。然而，这两个方面似乎存在冲突。为了解决这个问题，我们提出了一种统一的架构，即DeepPointMap，既能实现高效的内存使用的地图表示，又能实现准确的多尺度定位任务（如里程计和闭环检测）。

创新

本研究的创新性主要体现在以下几个方面：

统一的神经网络描述符：本研究提出了DeepPointMap（DPM）框架，其中包括DPM编码器和DPM解码器两个神经网络。DPM编码器能够从点云数据中提取高度代表性且稀疏的神经描述符，实现了对环境的高效编码。与传统的手工设计特征相比，这些神经描述符既能够减小地图的内存占用，又能够保持高精度的定位和重建能力。
多尺度匹配和注册：DPM解码器能够基于神经描述符进行多尺度的匹配和注册，包括里程计和闭环检测。与其他基于神经描述符的方法相比，DPM解码器能够在统一的框架下完成多个SLAM子任务，实现了定位精度、内存效率、地图保真度和实时处理的统一优化。
多智能体协作SLAM：本研究将DPM框架扩展到多智能体协作SLAM领域。每个智能体都维护自己的SLAM系统，并在本地进行里程计和闭环检测。通过将观测数据进行合并和优化，实现了全局一致性的轨迹估计和地图重建。这在通信带宽有限的多智能体系统中具有重要意义。

方法

该框架包括两个神经网络：DPM编码器和DPM解码器。DPM编码器从点云中提取高度代表性和稀疏的神经描述符，实现了内存高效的地图表示和准确的多尺度定位任务。DPM解码器基于这些神经描述符进行多尺度匹配和注册。与其他神经描述符方法不同的是，DPM描述符可以统一地用于SLAM任务的多个子任务，具有出色的定位精度、内存效率、地图保真度和实时处理能力。

.1 DPM编码器

DPM解码器

DPM解码器用于预测两个描述符云之间的变换关系，它包括四个部分：（1）描述符级变换块，用于融合两个输入描述符云之间的深度相关特征；（2）相似性头，用于计算两个描述符云之间的对应关系；（3）偏移头，用于预测描述符云之间的偏移量；（4）旋转头，用于预测描述符云之间的旋转矩阵。这些部分共同工作，实现了描述符云之间的匹配和配准，从而实现了定位和闭环检测等多尺度的定位任务。

.3 训练

在训练DeepPointMap时，作者使用了几个不同的数据集。其中包括SemanticKITTI、KITTI-360和MulRan。作者还使用了KITTI-Carla数据集进行训练。训练集和测试集的划分是根据帧数的比例进行的，大约是6:4的比例。在训练过程中，作者使用了绝对姿态误差（APE）来评估预测轨迹的全局准确性。在定位准确性方面，DeepPointMap与其他6种最新的里程计和SLAM方法进行了比较，包括KISS-ICP、LeGO-LOAM、SC-LeGO-LOAM、MULLS、CT-ICP和GeoTransformer。作者还进行了转移实验，将DeepPointMap在KITTI-360和KITTI-Carla上训练，并直接在SemanticKITTI上评估其性能。在内存效率方面，DeepPointMap相对于原始点云、Voxel Hashmap和Mesh等方法能够节省大约50%至70%的内存。最后，作者还进行了多智能体合作SLAM实验，展示了DeepPointMap在多智能体场景下的优越性能。

.4 损失函数

训练DeepPointMap模型时使用了以下损失函数和策略：

此外，还使用了数据增强和课程学习策略来提高模型的性能。数据增强策略包括随机遮挡，用于模拟激光雷达扫描受到遮挡的情况。课程学习策略逐渐增加描述符云的规模，从简单到复杂的场景进行训练，以逐步学习大规模注册任务的能力。

实验结果

定位准确性：与六种最新的里程计和SLAM方法进行比较，包括KISS-ICP、LeGO-LOAM、SC-LeGO-LOAM、MULLS、CT-ICP和GeoTransformer。在SemanticKITTI、KITTI-360和MulRan数据集上比较了DeepPointMap与这些方法的定位准确性。结果显示，DeepPointMap在不同数据集上都能取得类似的定位准确性，并且在大规模地图上表现出更好的性能。

内存效率：评估了DeepPointMap的内存效率，并与其他常用方法进行比较，包括原始点云、Voxel Hashmap和Mesh。结果显示，DeepPointMap相比其他方法能够节省高达70%的内存空间。

多智能体合作SLAM实验：将DeepPointMap扩展到多智能体合作SLAM任务中，模拟了真实世界的多智能体合作SLAM场景。在SemanticKITTI数据集上选择了三个子序列，并将它们分配给三个独立的智能体进行重建。实验结果显示，DeepPointMap能够成功重建多智能体观测到的点云，并保持全局一致性。

通过这些实验验证了DeepPointMap在定位准确性、内存效率和多智能体合作SLAM方面的优越性能。

根据这项研究，后续可能的研究方向有哪些?

根据这项研究，可能的后续研究方向包括但不限于以下几个方面：

网络结构改进：可以进一步改进DeepPointMap的网络结构，以提高其性能和效率。例如，可以探索更复杂的神经网络架构或引入注意力机制来提取更具代表性的神经描述符。
多模态融合：可以将深度学习方法与其他传感器数据（如相机图像）进行融合，以提高SLAM系统的鲁棒性和准确性。通过融合多种传感器数据，可以更好地理解环境并实现更准确的定位和地图重建。
鲁棒性改进：可以研究如何提高DeepPointMap在复杂环境和动态场景下的鲁棒性。例如，可以探索如何处理遮挡、动态物体和不完整的点云数据，以提高系统的鲁棒性和适应性。
实时性优化：可以进一步优化DeepPointMap的计算效率，以实现实时的SLAM系统。可以通过模型压缩、硬件加速或并行计算等方法来减少计算复杂度，提高系统的实时性能。
多智能体合作SLAM：可以进一步研究如何在多智能体合作SLAM中应用DeepPointMap。可以探索如何实现智能体之间的信息共享和协作，以实现全局一致性的地图重建和定位。

这些是可能的后续研究方向，通过进一步的研究和实验，可以进一步提升DeepPointMap的性能和应用范围。

总结

我们提出了一种基于深度学习的LiDAR SLAM框架，称为DeepPointMap（DPM）。该框架包括两个神经网络：DPM编码器和DPM解码器。与其他神经描述符方法不同的是，DPM描述符可以统一地用于SLAM任务的多个子任务，具有出色的定位精度、内存效率、地图保真度和实时处理能力。DeepPointMap在定位精度、地图重建质量和内存消耗方面取得了新的最优结果。此外，该框架还在多智能体协作SLAM方面展示了其灵活性和潜力。因此，DeepPointMap为LiDAR SLAM领域的发展提供了一种有效的解决方案。

#P-Mapnet

在线HD Map生成算法是当前自动驾驶系统摆脱对高精地图依赖的方法之一，现有的算法在远距离范围下的感知表现依然较差。为此，我们提出了P-MapNet，其中的“P”强调我们专注于融合地图先验以提高模型性能。具体来说，我们利用了SDMap和HDMap中的先验信息：一方面，我们从OpenStreetMap中提取了弱对齐的SDMap数据，并将其编码为单独的条件分支输入。尽管改输入与实际HD Map存在弱对齐的问题，我们基于Cross-attention机制的架构能够自适应地关注SDMap骨架，并带来显著的性能提升；另一方面，我们提出了一种用MAE来捕捉HDMap的先验分布的refine模块，该模块有助于让生成的HD Map更符合实际Map的分布，有助于减小遮挡、伪影等影响。我们在nuScenes和Argoverse2数据集上进行了广泛的的实验。

图 1

总结来说我们的贡献如下：

（1）我们的SDMap先验能够提升在线地图生成性能，包含了栅格化（最多可提高18.73 mIoU）和矢量化（最多可提高8.50 mAP）两种地图表示。

（2）我们的HDMap先验能够将地图感知指标提升最多6.34%。

（3）P-MapNet可以切换到不同的推理模式，以在精度和效率之间进行权衡。

（4）P-MapNet是一个远距离HD Map生成的解决方案，对于较远的感知范围能够带来更大的改进。我们的代码和模型已公开发布在https://jike5.github.io/P-MapNet/。

#CurveFormer++

在自动驾驶中，使用单目相机进行3D车道线检测对于各种下游规划和控制任务至关重要。最近的卷积神经网络（CNN）和Transformer方法通常在模型设计中采用两阶段方案。第一阶段将前视图像的特征转换成鸟瞰图（BEV）表示。随后，一个子网络处理BEV特征图以生成3D检测结果。然而，这些方法在很大程度上依赖于一个具有挑战性的图像特征变换模块，将透视视图转换为BEV表示。

在作者的工作中，作者提出了CurveFormer++，这是一种基于Transformer的单阶段方法，它不需要图像特征视图变换模块，并直接从透视图像特征推理3D车道线检测结果。具体来说，CurveFormer++将3D检测任务建模为一个曲线传播问题，其中每条车道由一个带有动态有序 Anchor 点集的曲线 Query 表示。通过使用Transformer解码器，模型可以迭代地改进3D车道线检测结果。

在Transformer解码器中引入了曲线交叉注意力模块，以计算图像特征与车道的曲线 Query 之间的相似性。为了处理不同车道长度，作者采用了上下文采样和 Anchor 点限制技术，为曲线 Query 计算更为相关的图像特征。此外，作者还应用了一个时序融合模块，该模块融合了选定的信息丰富的稀疏曲线 Query 及其相应的 Anchor 点集，以利用历史车道信息。

在实验中，作者在两个公开可用的真实世界数据集上评估了作者的3D车道线检测方法。结果显示，与基于CNN和Transformer的方法相比，CurveFormer++提供了卓越的性能。作者还进行了消融研究，以分析作者方法中每个组件的影响。

I Introduction

车道线检测在自动驾驶感知系统中起着至关重要的作用，它可以为静态交通场景提供来自前视摄像机的准确车道信息。通过利用在 ego 车辆坐标系中的车道线检测结果，可以开发出各种重要的驾驶特性，包括基本的先进驾驶辅助系统（ADAS）特性，如车道保持辅助（LKA）、车道偏离警告（LDW），以及更高级的功能，如智能巡航控制（ICC）和领航辅助（NOP）。这些特性有助于提升驾驶辅助和自动化能力，最终提高了自动驾驶车辆的安全性和便利性。

早期对车道线检测的研究主要集中在图像空间，将其视为一个语义分割任务，或者利用线回归技术。例如，基于CNN的分割方法SCNN从输入图像中区分车道线与交通背景，而基于回归的方法Ultra-Fast旨在在图像空间上识别车道线上的关键点。然而，对于下游任务，如规划和控制，更希望在3D空间中以曲线参数的形式表达车道线。因此，需要后处理步骤将2D车道结果从图像空间转换到自主车辆坐标系统，如图1（a）所示。

不幸的是，由于缺乏深度信息和准确的实时相机外参，将车道线从图像平面投影到鸟瞰视图（BEV）视角往往会导致误差传播问题。此外，典型的后处理步骤，如聚类和曲线拟合方法往往比较复杂且耗时，这使得车道线检测方法不够健壮，也不太适合于现实的感知系统。

为了解决两阶段方法后期处理中的局限性，已经提出了基于卷积神经网络（CNN）的方法，用于端到端的3D车道线检测任务。这些方法采用逆投影映射（IPM）将图像特征图转换到地面平面。例如，图1（b）所示的3D-LaneNet，它使用基于 Anchor 点的3D车道表示并预测摄像机姿态，使用IPM将2D特征投影出来。

同样，Gen-LaneNet提出了一种虚拟俯视图，将IPM投影的鸟瞰图（BEV）特征与真实世界车道对齐。基于CNN的另一种3D车道线检测方法涉及深度估计及该信息的整合。例如，ONCE执行2D车道语义分割和深度估计，整合这些结果来推导3D车道。然而，准确摄像机姿态估计或深度估计的要求可能会导致丢失车道高度，从而影响这些方法的鲁棒性，特别是在平面地面假设不成立的情况下。

近年来，基于Transformer的方法在计算机视觉和机器人任务中取得了显著进展，展现了卓越的成功。最初由DETR引入到目标检测领域，基于Transformer的方法因其能够消除对后处理步骤的需求，直接从输入图像推理输出而受到欢迎。同样，基于Transformer的3D车道线检测方法采用类似的原理从输入图像计算3D车道结果。这些方法首先通过视图变换构建密集的鸟瞰图（BEV），然后使用解码器层中的交叉注意力从中间BEV特征图计算3D车道结果。

例如，PersFormer构建了一个密集的BEV Query ，并使用Transformer将BEV中的 Query 与图像特征进行交互（如图1（c）所示）。然而，尽管这些方法努力利用Transformer进行3D车道线检测，缺少图像深度或BEV图高度限制了它们通过获取与 Query 精确对应的特征来提高性能。因此，这些方法可能限制垂直信息的表达，特别是在3D车道线检测场景中，近处对应平坦道路，而远处可能涉及上坡或下坡路段。

为了解决上述挑战，作者提出了CurveFormer++，一个增强的基于Transformer的3D车道线检测方法（图1（d））。在CurveFormer++中，车道被表示为稀疏的曲线 Query 及其相应的车道置信度、两个多项式和起始和结束点（图4（a））。受到DAB-DETR 的启发，作者引入一组3D动态 Anchor 点以促进曲线 Query 与图像特征之间的交互。通过使用相机外参将高度信息融入，3D Anchor 点使作者能够精确地与每个 Anchor 点对应的图像特征对齐。此外，动态 Anchor 点集在Transformer解码器序列中迭代优化。

此外，作者在解码层中引入了一个新颖的曲线交叉注意力模块，以研究曲线 Query 和动态 Anchor 点集的效果。与直接从 Query 预测采样偏移的标准Deformable-DETR 不同，作者引入了一个上下文采样单元，从参考特征和 Query 的组合中预测偏移，以指导采样偏移的学习。为了提取具有不同长度的车道的更准确特征，作者在特征采样步骤中采用了动态 Anchor 点范围预测作为限制。此外，还采用了辅助分割分支来增强共享的CNN Backbone 网络。通过这种方式，作者的CurveFormer设计适用于3D车道线检测。

历史帧中的时间信息在推进自动驾驶中的3D感知方面发挥着关键作用。最近，基于Transformer的BEV方法将来自多帧图像特征的BEV特征图融合到一个统一的BEV空间中，以提供时间信息。与单帧方法相比，这些方法在目标检测和静态交通场景理解任务中取得了显著性能。对于3D车道线检测任务，STLane3D应用了类似的想法，将来自先前观测的密集BEV特征进行融合，如图2（a）所示。尽管BEV特征融合具有优势，但图像到BEV视角转换所需的密集特征采样对精确的BEV时间对齐提出了挑战。特别是当对齐缩小尺度的BEV特征图时，考虑到交通车道只占据密集BEV空间的一小部分，这尤其具有挑战性。因此，这些困难可能会限制利用历史信息进行3D车道线检测的有效性。

受到融合历史 Query 信息的StreamPETR的启发，在本研究中，作者提出了一种新颖的方法来执行历史结果的时效融合。CurveFormer++包括利用历史稀疏曲线 Query 和动态 Anchor 点集，实现了有效的时间传播。如图2（b）所示，作者的时间融合方法不依赖于密集的BEV特征图。

为了验证所提出算法的性能，作者在OpenLane数据集和ONCE-3DLanes数据集上评估了作者的CurveFormer++。CurveFormer++在ONCE-3DLanes数据集上为3D车道线检测取得了具有竞争力的结果。与近期提出的基于Transformer的3D车道线检测方法相比，它在OpenLane数据集上也展现出了前景的性能。同时，每个组件的有效性也得到了验证。

通常，作者的主要贡献有三个层面：

作者提出了CurveFormer++，一种基于Transformer的新型三维车道线检测算法。通过将解码器层中的 Query 格式化为动态 Anchor 点集，并应用曲线交叉注意力模块来计算 Query 与图像之间的相似性。此外，在解码器层中采用了动态 Anchor 点范围迭代方案，以实现准确的特征提取。
作者引入了一种以车道为中心的时间建模范式，其中长期历史信息通过稀疏 Query 和 Anchor 点逐帧传递。为此，CurveFormer++ 可以通过选择性的时间曲线 Query 和历史 Anchor 点，将从图像序列中融合时间信息到3D车道线检测任务中。
实验结果表明，
在几个公共数据集上与基于CNN和基于Transformer的最先进方法相比，取得了有希望的性能。

与会议论文的区别。 本工作的初步版本，CurveFormer，已被 ICRA 2023 接收。与会议版本相比的改进如下：

作者将CurveFormer 进行了扩展，以编码来自图像序列的时间信息。具体来说，作者提出了一个时间曲线交叉注意力模块，使模型能够通过稀疏曲线 Query 和动态 Anchor 点集逐帧传播历史信息。所引入的时间融合方法确保了3D车道预测结果在帧与帧之间的稳定性。
作者修改了曲线 Anchor 点建模，以融入一个动态控制 Anchor 点数量的 Anchor 点范围限制。由于每条车道的长度并不固定，所提出的范围限制使得 Anchor 点集合能够有效地提取车道图像特征。这种方式确保了增加 Anchor 点数量不会导致包含无效的图像特征。
作者在新数据集ONCE-3DLanes上进行了实验，并且还在OpenLane数据集上提供了额外的实验来评估CurveFormer++。扩展版的CurveFormer++相较于原始的CurveFormer实现了显著的提升。

II Related Work

2D车道线检测。 早期深度学习车道线检测方法在图像平面上执行，可以分为分割方法和回归方法。分割方法通过分配一组预定义的语义标签来区分图像中的每条车道线。除了标准的分割方法外，还引入了捕捉车道结构先验的方法。SCNN首次引入了在特征图上逐片卷积，因为它更适合于车道线检测。LaneNet通过增加一个聚类嵌入分支，将语义分割升级为实例分割。SAD提出了一种可插入的自注意力模块，以增强特征的学习能力，无需额外的监督。RESA [4]基于车道的强形状先验，在垂直和水平方向上结合空间信息。Bi-Lanenet提出了一种新的双边车道识别网络，使用随机样本共识。MFIALane [6]聚集多尺度特征信息并采用通道注意力机制。

与使用全局分割方法相比，近期研究也将车道线检测制定为局部车道线回归任务。车道回归算法可以分为关键点估计，基于 Anchor 点的回归和行回归。PINet 通过独立的关键点制定车道，并使用实例分割解决聚类问题，而 GANet 将车道表示为与起点相关联的一组关键点。DevNet 结合了基于点估计的偏差感知和语义特征。Point2Lane 选择可变数量的主点，并通过连接它们简单地再现目标车道。Point-LaneNet 和 CurveLane-NAS 将图像划分为非重叠网格，并相对于垂直线 Proposal 回归车道偏移。

Line-CNN 和 LaneATT 在预定义的光线 Proposal 上回归车道，而 CLRNet 将射线 Anchor 的起始点和角度设置为可学习参数，并在特征金字塔层之间进行细化。Ultra-Fast 将车道线检测视为一种行分类方法，显著降低了计算成本。LaneoFormer 通过行列自我关注重新构建传统的 Transformer 架构，以更好地获取车道的形状和语义信息。

除了点回归，使用多项式方程建模车道是另一种已经探讨过的方法。PolyLaneNet 利用全局特征直接在图像平面上预测多项式系数。PRNet 增加了两个辅助分支：初始分类和高度回归，以增强多项式估计。文献 [36] 中的方法应用IPM（逆透视映射）和最小二乘拟合直接在BEV（鸟瞰图）空间预测抛物线方程。LSTR 使用Transformer与图像特征和车道 Query 交互，直接预测3D车道参数。

三维车道线检测。近年来，采用端到端方法进行车道线检测的趋势日益增强，特别是在三维车道线检测的背景下。大多数基于CNN和Transformer的方法首先构建一个密集的BEV特征图，然后从此中间表示中提取三维车道信息。3D-LaneNet提出了一种双路径架构，使用IPM转置特征并通过垂直 Anchor 定回归检测车道。

为了解决车道方向上的 Anchor 定限制，3D-LaneNet+将BEV特征划分为非重叠单元格，并通过与单元格中心相关的横向偏移距离、角度和高度偏移来重新定义车道。文献[38]中的方法引入了不确定性估计，以增强[17]网络的性能。GenLaneNet首先引入了一个虚拟俯视坐标框架以改善特征对齐，并提出了一种两阶段框架，将车道分割和几何编码解耦。BEVLaneDet提出了一种虚拟相机以确保空间一致性，并通过关键点表示3D车道以适应更复杂的场景。GroupLane首次在BEV中引入了按行分类的方法，该方法支持任意方向的车道，并与实例组内的特征信息进行交互。

由于相机姿态估计是三维车道线检测的关键，CLGo提出了一种两阶段框架，该框架从图像估计相机姿态，并从BEV特征解码车道。PersFormer使用离线相机姿态构建了密集的BEV Query ，并在基于Transformer的框架下统一了2D和3D车道线检测。STLanes3D使用融合的BEV特征预测3D车道，并引入3DLane-IOU损失以耦合横向和高度方向上的误差。

为了减少计算开销，一些方法最近试图在不显式构建BEV特征的情况下检测3D车道。例如，Anchor3DLane，这是一种基于CNN的方法，它直接从基于3D Anchor 定的图像特征回归3D车道。CurveFormer利用Transformer中的稀疏 Query 表示和交叉注意力机制高效地回归3D车道多项式系数。紧随CurveFormer的类似 Query Anchor 定建模，LATR构建了一个车道感知 Query 生成器及动态3D地面位置嵌入，以提取车道信息。

时间融合。 来自历史帧的时间信息为自动驾驶中的3D感知提供了额外的信息。例如，在3D目标检测任务中，BEVFormer 将时间建模引入到多视图3D目标检测中，它采用时间自注意力来融合历史BEV特征。Sparse4D 通过稀疏采样和按照特定顺序融合多维度特征来迭代优化3D Anchor 点，以获得准确的检测结果。StreamPETR 将之前的和当前的稀疏目标 Query 都输入到Transformer解码器中，以执行空间时间交互。

在3D车道线检测任务中，Anchor3DLane-T 通过将当前帧的3D Anchor 点投影到之前的帧上来采样特征，从而融入时间信息。PETRv2 扩展了3D位置嵌入和多视图图像特征，用于时间建模，为Transformer解码器中的 Query 学习提供信息丰富的指导。STLane3D 提出了一种在BEV空间下的新颖多帧预对齐层，它将来自不同帧的特征统一投影到相同的ROI区域。

III Method

Overview

图3（a）和（b）分别展示了作者CurveFormer++在单帧3D车道线检测框架的概览以及所提出的时间融合块。

在图3（a）中，CurveFormer++由两个主要部分组成：一个共享的CNN Backbone 网络，它接收单个前视图图像作为输入并输出多尺度特征图；以及一个曲线Transformer解码器，通过曲线交叉关注传播曲线 Query ，并迭代地细化 Anchor 点集。

如图3.(b)所示，作者提出的时间传播融合块采用了稀疏曲线 Query 和动态 Anchor 点集。作者只将置信度最高的曲线 Query 和 Anchor 点传播到下一帧。

Shared CNN Backbone

Backbone 网络接收输入图像并输出多尺度特征图。在训练阶段，作者添加了一个辅助分割分支以增强共享的卷积神经网络 Backbone 。

Sparse Curve Query with Dynamic Anchor Point Set

DAB-DETR 提出了一种新颖的方法，其中 Query 被建模为 Anchor 框，由4D坐标（x, y, w, h）表示。这种表示使得交叉注意力模块能够利用每个 Anchor 框的位置和大小信息。受到DAB-DETR的启发，作者将类似的方法应用于基于Transformer的3D车道线检测，并使用动态 Anchor 点集。

其中位置编码（PE）被用来使用浮点数生成嵌入，而多层感知机（MLP）的参数在所有层之间共享。

Curve Transformer Decoder

作者的曲线Transformer解码器主要包括三个主要部分：一个多头自注意力模块，一个上下文采样模块以及一个曲线交叉注意力模块。作者在自注意力模块中应用了可变形注意力，该注意力集中于参考点周围的一组有限的关键采样点，而不管特征图的空间大小。

上下文采样模块。 在可变形DETR 方法中，使用一个可学习的线性层来估计与 Query 相关的参考点的采样位置偏移，这些偏移与图像特征无关。与这种方法相比，作者引入了一个上下文采样模块，通过结合更多的相对图像特征来预测采样偏移。图5展示了标准采样偏移模块（a）与作者的上下文采样模块（b）之间的区别。

Propagation Fusion Module.

在自动驾驶中，当前帧观察到的静态车道实例往往会在后续帧中持续存在。这一观察激发作者将历史信息传播到下一帧。基于CurveFormer++的独特设计，作者提出了一个简单直接的时间融合模块，该模块融合了曲线 Query 及其相应的 Anchor 点集。

如图6所示，作者比较了四种基于CurveFormer++构建的不同时间传播融合模块，以验证融合历史信息所带来的改进。

利用历史曲线 Query 。 与BEVFormer不同，后者通过使用自注意力将时态建模融入到多视图3D目标检测中，以融合历史鸟瞰图（BEV） Query ，作者提出了一个替代框架，使用稀疏 Query 作为时态传播的隐藏状态。具体来说，作者将历史信息从稀疏曲线 Query 传递到当前帧。这是通过使用历史帧曲线 Query 同时作为_键_和_值_，并在当前帧的初始曲线 Query 上应用时态自注意力来实现的，如图6（b）所示。

利用历史Top-K曲线 Query 。 在基于Transformer的检测模型中， Query 的数量通常远超实际目标数量，导致一些 Query 无法有效地学习目标的表示。遵循[31, 47]的方法，作者只将置信度最高的曲线 Query 传播到下一帧。如图6（c）所示，作者将历史的Top-k曲线 Query 直接与当前随机初始化的 Query 连接起来，并将曲线 Query 作为temporal self-attention中的 Query 、keys和values进行融合。

利用历史Top-K曲线 Query 和 Anchor 点集。 为了充分利用空间和上下文先验，作者不仅将传播扩展到Top-K曲线 Query ，还将在当前帧中转移相应的 Anchor 点集。如图6（d）所示，在传播历史Top-K曲线 Query 时，作者使用方程（6）将Top-K Anchor 点集转换到当前的坐标系统中，然后将它们与初始 Anchor 点集连接起来。通过包含历史曲线 Query 及其相关的 Anchor 点，模型能够捕捉并利用车道之间的时间依赖性和空间关系，从而提高了3D车道线检测的性能。

Curve Training Supervision

IV Experiments

Dataset

OpenLane 数据集。 OpenLane 数据集是第一个真实世界的3D车道数据集，基于 Waymo 开放数据集，以每秒10帧的频率包含超过20万帧。总共，它拥有一个带有157K张图片的训练集以及一个含有39K张图片的验证集。该数据集提供了相机内参和与 Waymo 开放数据集相同数据格式的相机外参。

ONCE_3DLanes 数据集。 ONCE_3DLanes 数据集是从最近的大规模自动驾驶数据集 ONCE 构建的一个真实世界的3D车道数据集。该数据集包含211K张具有高质量3D车道点标注的图像，涵盖多种天气和地区条件。

Experiment Settings

Evaluation Metrics

ONCE-3DLanes数据集采用两阶段评估指标来检测车道。最初，匹配度是基于俯视图平面上的交并比（IoU）确定的。如果匹配对的IoU超过某个阈值，它们将进一步使用单向 Chamfer 距离（CD）作为匹配误差进行评估。在作者的评估中，作者报告了在ONCE-3DLanes数据集上的F1分数、精确度、召回率和CD误差的结果。

Main Results

表1列出了在ONCE-3DLanes数据集和OpenLane数据集上F1分数的实验结果。类似于CurveFormer的 Query Anchor 建模方法，LATR通过利用语义结果作为 Transformer Query （Lane-Embed）的输入和动态3D地面位置嵌入（Ground-Embed）来构建一个关注车道的 Query 生成器，以增强车道信息。LATR在OpenLane和ONCE-3DLanes数据集上都取得了最先进的结果。

在OpenLane子集数据集（约300个视频片段）中，当不使用Lane-Embed和Ground-Embed组件时，CurveFormer++比LATR取得了更优的结果。如[44]中所声称的，主要的改进是通过Lane-Embed和Ground-Embed实现的。由于CurveFormer++没有使用这两个组件，作者在后续表格中主要比较了其他未包含这些组件的方法。

在ONCE-3DLanes数据集上的结果。 表2展示了在ONCE-3DLanes数据集上的实验结果。基于Transformer的方法优于基于CNN的方法。例如，CurveFormer++相比于3D-LaneNet和Gen-LaneNet显示出显著的改进。它还在F-Score上比Anchor3DLane高出2.78%，在精确度上高出1.72%。

此外，CurveFormer++超越了基于Transformer的方法，其F-Score比PersFormer高出5.15%，比STLane3D高出3.17%。值得注意的是，CurveFormer++达到了与STLane3D-T相当的性能，后者还额外结合了时间特征信息。作者的时间模型，CurveFormer++-T，与单帧设置相比，实现了更高的F-Score（+0.63）和召回率（+2.1）。

在OpenLane数据集上的结果。 对于OpenLane数据集，作者在整个验证集以及六个不同场景集上评估了CurveFormer++和CurveFormer++-T。在表3中，CurveFormer++与可能限制垂直信息表达的密集BEV方法相比，展示了显著的改进。通常情况下，在整个验证集上，它比PersFormer 在F-Score上高出2.2%。

同样，作者对CurveFormer的修改使得在验证集上的F-Score提高了2.2%，相比其原始版本。在各种场景中，包括上坡、下坡、曲线以及夜间条件，作者的基于Transformer的方法相较于基于CNN的方法Anchor3DLane（同样没有采用密集的鸟瞰图模块）提供了更准确的结果。

表4显示CurveFormer++-T在x和z误差上的预测更为精确，表明融合时间信息可以提高近区域检测结果的准确性。此外，作者使用第IV-C节提出的稳定性评估指标，对PersFormer，CurveFormer++和CurveFormer++-T在200个测试视频片段上进行评估。在96%的视频片段中，CurveFormer++-T的标准差低于PersFormer，并且在58%的视频片段中，在标准差降低方面优于CurveFormer++。相应的结果展示在图7中。

Ablation Study

在本节中，作者通过在OpenLane数据集的一个子集（约300个视频片段）上进行的消融研究，分析所提出的关键组件的效果。

V-E1 Single-frame Experiments

作者进行了验证，以评估CurveFormer++的组件和设置的有效性。

动态 Anchor 点集设计。 在作者的Curve Transformer解码器中，每个3D车道 Query 被表示为一个动态 Anchor 点集。动态 Anchor 点提取更准确特征的效率对每个解码器层上 Query 的逐步优化具有至关重要的作用。

为了研究作者动态 Anchor 点集的有效性，作者进行了实验，变化 Anchor 点的数量以及是否对 Anchor 点应用范围限制。实验结果列于表5中。正如预期的那样，简单地将 Anchor 点数量从10增加到40并不能提供性能提升。这可以归因于车道长度的变化，如果没有范围限制， Anchor 点可能会提取不相关的特征。

总体而言，当同时使用40个带有范围限制的 Anchor 点时，性能在F-Score上显示出显著提高2.7%。然而，使用超过40个 Anchor 点并没有提供任何额外的改进。这表明增加 Anchor 点数量可能会在特征提取中引入冗余，可能导致从图像中采样重复的车道特征。

网络结构与设置。 为了简化模型并降低计算成本，作者用仅解码器的网络替换了文献[32]中描述的原始编码器-解码器架构。两种结构的性能展示在表6中。

V-B2 Multi-frame Experiments

作者现在分析CurveFormer++-T的几个设计选择。

结果表明，使用历史 Anchor 点（图6（a））和历史曲线 Query （图6（b））可以得到类似的结果，并且通过融合时间信息提高了性能。历史 Query 和 Anchor 点都被证明能有效地增强3D车道线检测结果。同时，曲线 Query 比单独使用 Anchor 点取得稍微好一点的结果，这表明潜在的曲线 Query 可能包含除了显式点表示之外的额外信息。

在使用历史曲线 Query 时，选择具有最高置信度分数的前K个曲线 Query （图6（c））可以进一步提升F-Score 1.1%。这证明了仅使用信息丰富的 Query 作为历史信息来编码时间信息的重要性。最后，利用前K个精炼的稀疏曲线 Query 及其相应的动态 Anchor 点集（图6（d））相比于单帧模型取得了实质性改进，F-Score从51.8%提高到54.2%。这一改进验证了作者在时间传播模块设计中有效捕捉和利用时间信息的优越性。

实验结果表明，在考虑2个历史帧的同时，结合6个得分最高的曲线 Query 及其相应的 Anchor 点集，可以获得最佳的绩效，F-Score达到了55.4%。

V Conclusions

在本文中，作者介绍了CurveFormer++，一种基于Transformer的3D车道线检测方法。它使用动态 Anchor 点集来构建 Query ，并在Transformer解码器中逐层细化。此外，为了关注更多相关的图像特征，作者提出了曲线交叉注意力模块和上下文采样模块来计算关键点与图像的相似性。作者还融入了一种 Anchor 点范围限制方法，以增强模型在准确表示不同长度的车道时的鲁棒性和适应性。

此外，CurveFormer++应用了一种新颖的时间融合，利用稀疏曲线 Query 和动态 Anchor 点集来融合历史结果。在实验中，作者展示了CurveFormer++与基于CNN和基于Transformer的方法相比，取得了令人鼓舞的结果。

#车辆ReIDの深度学习

本文广泛探讨了应用于车辆ReID的深度学习技术。它概述了这些方法的分类，包括监督和无监督方法，深入研究这些类别中的现有研究，介绍数据集和评估标准，并阐明未来的挑战和潜在研究方向。文章全面的评估考察了深度学习在车辆ReID中的应用，并建立了未来工作的基础和起点。

车辆重识别（ReID）旨在将来自分布式网络摄像机拍摄的不同交通环境中的车辆图像进行关联。这项任务在以车辆为中心的技术领域中占据着至关重要的地位，在部署智能交通系统（ITS）和推进智慧城市倡议方面发挥着关键作用。近年来，深度学习的快速发展显著推动了车辆ReID技术的演变。因此，对以深度学习为核心的车辆ReID方法进行全面调查已成为迫切且无法避免的需求。

本文广泛探讨了应用于车辆ReID的深度学习技术。它概述了这些方法的分类，包括监督和无监督方法，深入研究这些类别中的现有研究，介绍数据集和评估标准，并阐明未来的挑战和潜在研究方向。这篇全面的评估考察了深度学习在车辆ReID中的应用，并建立了未来工作的基础和起点。它旨在通过突出挑战和新兴趋势，促进利用深度学习模型在车辆ReID方面的进展和应用。

I Introduction

车辆是社交生活中最受欢迎和重要的部分。近年来与车辆相关技术的进步，如车辆检测、车辆类型识别、车辆跟踪、车辆检索等，已经促使智能交通系统（ITS）和智能城市的实现。在这个技术领域中，搜索特定车辆轨迹并探索其运动在加强智能城市框架中的公共安全方面具有重要意义。

如图1所示，这项努力涉及从车辆图像中提取全局和局部特征，并结合相关的辅助属性，包括颜色、类型、品牌和时空数据。这些提取的特征然后用于比较画廊图像，检索与 Query 图像相似的图像，缩小检索范围，并最终提高结果的质量。这个过程中关键元素是提取和比较从车辆图像中提取的特征，通常称为车辆ReID。车辆ReID旨在在由各种相机在不同的时刻捕获的车辆图像的广泛存储库中识别特定车辆。它在广泛的智能交通系统中尤为突出，并应用于各种视频监控场景，包括定位丢失的车辆、跨地区跟踪特定车辆等。

近年来，随着深度学习技术的快速发展和其在高性能自动目标检测方面的成功，车辆ReID已经引起了许多研究行人和工业界人士的关注。根据对几篇研究论文的调查，作者总结出了基于深度学习的车辆ReID方法的分类，如图2所示。

如图2所示，车辆ReID方法可以分为两个关键类别：监督方法和不监督方法。

在监督方法中，一些研究行人主要专注于从车辆图像中学习独特的视觉特征作为分类问题，而其他人则专注于通过损失函数进行深度度量学习。

为了学习视觉特征，通常，卷积神经网络（CNN）及其变体已经被广泛应用于从车辆图像中识别全局特征。此外，一些方法建议将不同层的特征图与CNN的最终输出相结合。这些方法只关注车辆的全局特征，而没有考虑其丰富的细节，因此不适合用于区分视觉上相似的车辆。为了解决这个问题，一些工作已经进行了局部和全局特征的集成。例如，车辆品牌或装饰从不同视角提供的局部特征可以反映额外的细节。这些方法主要强调从图像分区中学习局部特征，考虑区域之间的关系，或学习局部和全局特征之间的交互。最近， Transformer 的能力已经被应用于从车辆图像中学习全局和局部特征。除了车辆图像，一些方法已经利用知识为基础的信息，包括但不仅限于车辆属性（如车辆颜色、类型、品牌和时空特征，如车辆轨迹）。

深度度量学习旨在通过深度模型获得多维特征空间，以便具有相同类别标签的实例接近，而具有不同类别标签的实例远离彼此。用于度量深度学习的两种主要损失函数是对比损失和Triplet Loss。关于最近的研究，Triplet Loss在车辆ReID任务中优于对比损失。此外，这些损失函数的某些适应性版本已经专门针对与车辆ReID相关的限制进行了调整。

无监督方法试图在没有类别标签的数据中完全发现适当的信息，可以分为两个组：无监督域自适应和完全无监督。前者方法专注于应用一些修改过的对抗网络（GAN），如PTGAN，SPGAN，和CycleGAN，从源域生成具有相同类别标签的合成图像。这些图像以监督方式消耗以训练深度网络。后者主要旨在开发聚类算法和训练策略，从目标域数据中仅发现适当的信息，而不考虑其他辅助信息。与监督方法不同，这些方法从未标注的数据中推理车辆ReID，使其更适合并加强实际场景。

虽然最近的成就主要集中在提高车辆ReID模型的性能并解决其问题，但较少的研究关注对这些发展和改进的全面审查。据作者所知，没有对全面研究的彻底回顾，以概括和发现这个主题的所有方面，除了对监督方法的一些调查。因此，有必要回顾当前的最好状态，为这个主题的未来研究提供建议。

在这次回顾中，作者全面调查了使用深度学习方法的车辆ReID，介绍了这些方法的通用分类，包括监督和无监督方法，回顾了这些类别的现有研究，解释了知名数据集和评估标准，并描述了未来研究的挑战和可能的方向。这次回顾检查了基于深度学习的车辆ReID的现状。它为未来的工作提供了基础和起点，指出了相应的挑战和趋势。最终结果将对未来使用深度学习模型开发和应用车辆ReID有所帮助。

II Problem Formulation

III Supervised Vehicle Re-Identification

正如前面提到的，监督方法主要关注使用监督学习技术从车辆图像中学习有用的视觉特征，以实现车辆ReID问题的解决。这是通过两种不同的策略实现的：特征学习和度量学习。前者利用深度学习模型通过学习车辆图像中的稳健和有鉴别性的特征来处理车辆ReID问题。相比之下，后者专注于设计距离和损失函数，以便具有相同类别标签的实例接近，而具有不同类别标签的实例远离彼此。本节全面概述了这些策略。

Feature Learning

最近的研究主要集中在采用各种CNN来提取全局或局部特征，并将它们与聚合模块结合，通过特征学习来重识别车辆。根据聚合模块的机制，这些方法可以分为三类：

学习全局特征
结合全局和局部特征
知识驱动方法

Iii-A1 Learning of Global Features

为了考虑问题的内在挑战并提高ReID模型的实际泛化能力，提出了一些扩展的想法。在[13]中，采用了一个卷积神经网络（CNN）和四部分从粗到细的排名损失函数，以同时考虑所有重要挑战并提取车辆的外观特征。第一步，使用分类损失函数将具有相同模型的车辆聚类在一起，并隔离具有不同模型的车辆。然后，引入了粗糙的排名损失，以提高不同模型车辆之间的鉴别性，同时保持同一模型内车辆之间的差异。同一模型内不同车辆之间的差异也由细粒度的排名损失进行表示。还利用了成对损失，将同一辆车的样本尽可能地靠近。最后，他们应用随机梯度下降方法优化CNN网络权重并训练视觉外观模型。尽管该模型已经形式化了车辆ReID的主要问题，但模型验证数据集不适用，一些挑战，包括不同视角、遮挡、日夜变化和不同天气条件，也没有得到评估。

除了车辆图像，一些工作尝试从不同视角提取车辆图像的空间-时间属性和关联，以提高车辆ReID模型的有效性。在[45]中，将车辆图像之间的关系表示为多个颗粒。还提出了两种方法，即广义成对方法和多颗粒列表排序，以提高车辆检索问题的效率。这些方法通过CNN提取全局特征实现。

[46]中的作者开发了一个集成的CNN基础框架，用于发现车辆图像的独特视觉表示。该框架有效地集成了四个不同的子网络，包括识别、属性识别、验证和三元组，以学习各种特征和样本之间的关系。前两个子网络提取单个实例的详细特征，而接下来的两个子网络则专注于样本之间的关系。更具体地说，验证和三元组分别限制了两个样本和三个样本之间的关系。最后，为了训练框架，他们提出了一种同时优化这些子网络四个目标函数的方法。

除了基于CNN的外观特征和辅助特征（如颜色、类型、品牌和纹理），一些研究行人专注于其他特定的特征，如车牌和时空信息，以使检索结果更准确并增强重排机制。在[47]中，作者提出了一种多级深度网络作为粗糙滤波器，用于获取车辆视觉外观特征。然后，他们通过添加诸如车辆纹理、颜色和类型的属性来扩展粗糙滤波器。接着，车牌识别被应用于使搜索更精确。Query 图像和库图像之间的时空关系被调整以修改检索图像的排名[48]。

最近，一些研究考虑了车辆图像的多分辨率性质，即不同相机可能捕获的图像。在[14]中，提出了一种两阶段的深度模型，用于从多分辨率图像中发现独特的视觉特征。在第一阶段，开发了一个多分枝网络，以获取不同尺度的特定属性。每个分枝都由类似的结构CNN网络组成，以产生其尺度特定的视觉特征。这些特征作为输入传递到集成网络，以产生最终的视觉外观模型。两阶段的输出之间的交互利用提高了模型的效率。除了多分辨率视图外，一些工作考虑了注意力机制和全局外观特征，以捕获更有信息量的关键点。这些工作可以归类为结合全局和局部特征。

然而，一些这些方法并没有将车辆图像划分为有意义的地方，并从车辆图像中仅获得一些全局关键点。作者将它们放在当前部分中讨论。例如，在[49]中，提出了一种两分支深度模型，以提取全局和局部特征。在第一分支中，通过多级基于CNN的网络提取全局外观模型。还受到[50]和[51]的工作启发，建立了一个完全两阶段的CNN基于注意力方法，以提取关键点。这些特征被连接并后处理，以提取最终的视觉特征。他们的评估结果证实了注意力机制在克服车辆ReID问题方面的有效性。

总之，尽管已经提出了许多有价值的工作，但全局特征学习只考虑了车辆的整体视图，忽略了对于车辆ReID至关重要的区分性局部特征；因此，这些车辆ReID模型无法实现可接受的性能。因此，仅学习全局特征对于车辆ReID是不够的，还需要考虑局部特征以反映车辆的细节。

Ii-B2 Combining Global and Local Features

车辆之间的颜色、品牌、类型和型号等属性是普遍存在的，因此仅基于全局视觉特征进行车辆ReID似乎是不可能的，而车辆风挡玻璃上的装饰和检查贴纸等局部区域可能更有效。

此外，由于相机角度变化、不同天气和光线条件以及车辆之间的相似性等挑战，使得深度模型在没有考虑局部特征的情况下学习全局视觉特征无法有效克服车辆ReID的挑战。本子节对局部特征学习方法的分类及其最突出的模型进行了全面的审查。

图(2)显示，局部特征学习方法可以分为三个类别。一些研究行人只专注于对车辆图像进行静态或动态分割以提取局部特征。然而，一些工作继续调查分割部分之间的关系，以提高模型的泛化能力。最后，最近的努力已经考虑了全局和局部特征之间的交互作用。

从车辆图像分区学习的局部特征 局部特征学习方法可以概括为恒定空间分区和部分检测方法。除了卷积神经网络，注意机制和 Transformer 在两种方法中学习局部特征方面都发挥着重要作用。

常数空间分区间方法通常将特征图在水平或垂直方向上分成几部分，然后分别对每个部分进行池化。例如，在[19]中，提出了一种分叉的深度模型，包括条纹型和属性感知型，同时考虑局部和全局特征。前者包括平均池化层和维数约简卷积层，以发现局部视觉特征图。同时，后者通过监测车辆属性标签来提取全局特征图，以区分具有不同属性标注的相似身份。最后，将车辆图像的视觉特征图构建为将提取的局部和全局特征图 ConCat 起来。

在[16]中，引入了一种名为RAM1的模型，该模型从一系列局部和全局区域中提取局部特征。该模型最初使用基于CNN的网络生成一个共享特征图。然后，四个深度卷积模型处理这个特征图，产生不同的全局和局部特征。此外，RAM训练通过在多个分类任务中逐步优化softmax损失，同时考虑车辆ID、类型或模型以及颜色。

类似地，在[17]中，提出了一种Partition and Reunion Network (PRN)，用于提取具有固定全局特征图分区的局部特征。ResNet-50卷积神经网络被用作全局特征向量提取器。然后，在ResNet-50的卷积4_1层之后，复制卷积层将ResNet-50的 Backbone 部分分为高度/宽度分支。每个分支都被分为高度/宽度和通道特征图。因此，这些三个特征图，包括高度、宽度和通道特征图，被生成并连接以获得最终的特征图。作者们开发了一种由硬部分级和软像素级注意力模块组成的两级注意力网络，以学习更独特的视觉外观特征。第一个模块揭示了车辆的部分，例如挡风玻璃和汽车头，而第二个模块则更注重每个车辆部分中的独特特征。此外，他们开发了一种多粒度排序损失函数，该函数制定了类内紧凑性和类间区分目标，以提高学习特征的判别能力。

在C. Liu等人[20]的研究中，提出了一种自注意力模型，用于从车辆图像中提取更细微的特征，以获得用于车辆ReID的独特特征。该模型包括一个预训练的ResNet50网络作为 Backbone 网络，该网络由四个并行的自注意力模块组成，终止于一个最大池化层和一个卷积层。四个 Backbone 网络输出被输入到包含多个卷积层的四个CNN块中，以提取全局特征。这些全局特征及其修改被作为输入，进入十个自注意力分支，以提取多级局部特征。最后，这些特征通过最大池化和卷积层处理，生成特征图的最终视觉外观。该模型通过交叉熵损失和Triplet Loss进行训练。此外，通过贝叶斯模型提取车辆运动路径的一些时空信息，以重新排序模型的结果。

类似地，在[21]中，X. Ma等人受到Yu的研究启发，部署了一个两阶段的基于注意力的深度模型，以尽可能提取出用于车辆ReID的 discriminative特征。他们采用了STN3和网格生成器来自动隔离没有先前限制的车辆，并将其分成三个常数部分。这些部分被作为输入，输入到三个残差注意模型中，以提取更具有鉴别性的外观视觉特征。

正如之前提到的，部分检测方法是另一种学习局部特征的方式。这种方法通常使用一个著名的目标检测器，如YOLO，来找到车辆部分并发现区分性局部特征。主要缺点是部分检测模块通常是一个深度网络，因此需要大量的手动标注、批量训练和推理计算。例如，B. He等人[56]考虑了三个关键的车辆部分，包括灯（大灯和尾灯）、窗（前窗和后窗）和车辆品牌。他们应用YOLO在库中检测这些部分，并检测图像。然后，将原始图像和三个部分输入到四个单独的ResNet-50网络中，以提取一个全局特征图和三个局部特征图。最后，聚合模块将这三个特征图融合在一起，以获得用于车辆ReID的独特特征图。

在[31]中，作者们提出了VAC21数据集，用于学习车辆图像的局部属性和支持车辆ReID模型，从中发现车辆图像中的关键信息。这个数据集包括一个包含7129张不同类型车辆的库，这些车辆用21类层次属性标注（见表1）和边界框标注。据作者所知，这是唯一一个全面标注了车辆图像广泛细微属性的数据集。此外，他们在该数据集上训练了单张SSD网络[57]作为各种计算机视觉任务的属性检测模型，如车辆ReID。例如，[58]采用了这个预训练的SSD检测器来提取车辆属性。他们只选择了21个属性中的16个，并将其输入到部分引导的注意力网络中，以识别关键部件的领域，并将提取的局部和全局特征图融合在一起，以获得更明显的视觉特征。

除了从车辆图像中提取有意义的部分外，一些研究还关注于自动定位车辆图像中的几个关键点，并从中学习局部特征。例如，在Gu等人的研究中，开发了一种两步关键点近似方法。在前一步中，通过采用VGG-16网络，近似了二十个关键点和一个56x56热力图的协调。在下一步中，使用双堆叠小时glass作为细化网络，以增强热力图并减少由于难以察觉的关键点引起的伪影。卷积网络处理这些关键点和车辆方向估计信息，以选择自适应关键点和提取局部特征。同时，使用预训练的ResNet-50网络提取全局特征。最后，将局部和全局特征连接并处理，通过全连接层提取最终视觉特征。

此外，在Z. Wang等人的研究中，引入了一种深度模型，可以自动识别车辆部件并提取除了全局特征以外的方向不变的局部特征。更具体地说，使用小时glass网络估计二十个垂直关键点的位置，然后使用四个区域 Proposal Mask进行聚类。这些Mask与原始图像一起用于发现全局特征向量和四个局部特征向量。最后，通过一个自定义卷积层将这些特征组合在一起，得到方向不变的特征向量。

类似地，在Zheng等人的研究中，引入了一种基于关键点的图像分割模型，将原始车辆图像分割成几个前景部分，并检测每个部分是否具有区分性。深度网络处理一组具有区分性的部分和原始图像，以提取在笛卡尔域中具有明显相似性的视觉特征图。

总之，恒定空间分区的首要优点是不需要进行部分标注，并节省了相关的计算时间复杂度。然而，这些方法可能会因为部分分区的匹配问题而出现效率低下。相比之下，部分检测方法可以减轻匹配问题，但与手动部分标注和训练计算的时间复杂度有关。无论如何划分原始图像和如何检测部分，这两个类别都可以独立地学习每个部分区域上的局部特征，而不考虑部分之间的关系。

考虑部分区域之间的关系

这些方法通常是通过将GCN4s与CNN结合来考虑部分区域之间的关系而开发的。CNN通常发现全局特征，而GCN用于学习部分区域计算的局部特征之间的关系。GCN是一种深度神经网络，可以识别图结构实体的空间关系。以X. Liu等人[22]提出的PCRNet5为例，该模型将车辆图像划分为部分，发现部分级独特的特征，并确定车辆ReID中部分之间的关系。将车辆图像通过图像分割网络分解为部分后，PCRNet采用两个独立的模块分别发现局部和全局特征。开发了一个基于CNN的模型来发现全局特征。基于车辆车身结构的局部特征之间的关联关系，构建了一个部分邻接图。然后，使用一组GCN来在部分之间传播局部特征并提取不同视点的最具有区分性的局部视觉特征。

类似地，受GCN启发的HSS-SCN6在[23]中被提出，以了解车辆车身部件之间的层次关联并提取更多的独特特征用于车辆ReID。与大多数先前的作品一样，这个框架包括两个模块来提供全局和局部特征图。全局特征模块通过ResNet-50网络实现，然后被输入到局部特征模块以形成结构图网络。在局部特征模块中，采用了恒定空间分区方法将全局特征图划分为五个局部区域，包括特征的上左、上右、中间、下左和下右。这五个特征图和全局特征图形成图的顶点，所有局部或全局顶点之间的空间接近性构成图的边。

此外，Y. Zhu等人[24]引入了SGAT7来考虑标志符（如徽标、窗户、灯和车牌）之间的内在结构关联以及车辆图像之间的外在结构关联。特别是，SGAT包含三个元素：外观、属性和外在SGAT（ESGAT）模块。首先，外观模块使用CNN网络提取全局特征，同时使用内在SGAT（ISGAT）发现局部特征。这些特征被 ConCat 在一起形成车辆的视觉外观特征。同时，将画廊图像输入到属性模块以计算属性相似度矩阵。最后，ESGAT网络采用相似度矩阵来改进车辆的视觉外观特征。

此外，F. Shen等人[25]提出了HPGN8，通过使用金字塔架构将多个SGN结合在一起来完全发现不同尺度特征图的空间重要性。首先，应用ResNet-50作为 Backbone 网络来发现输入车辆图像的全局特征图。接下来，通过应用五个池化层同时缩放全局特征图来生成多尺度特征图。然后，在每个尺度上构建SG9s，其中相应的尺度特征图的元素作为顶点，顶点之间的空间相似性作为边。在每个金字塔结构的 Level 中，通过堆叠三个SG来创建其SGN，以处理相应的尺度特征图。SGN的输出被 ConCat 在一起以产生独特的车辆视觉特征。在[64]中，作者采用了一个CNN模型，然后是一个Transformer[65]，以挖掘全局特征并使用知识图谱传输网络，该网络由所有车辆类型作为节点来发现类内信息相关性。

尽管考虑部分区域之间关系的方法已经取得了有前途的结果，但它们仍然没有考虑局部特征和全局特征之间的相关性，以及其他描述性属性（如颜色、视点、品牌等），因此它们还没有达到足够的成熟度，其他方法已经通过涉及Transformer来填补这些缺陷。

Transformer-based Feature Learning

Transformer概念最初是在A. Vaswani等人[65]的研究中引入的，用于处理机器翻译问题。空间统计信息保留和全局处理是Transformer的两个基本机会。与CNN模型相比，由于下采样操作，Transformer可以保留空间统计信息，并通过采用多头自注意力机制提供远程信息。

后来，研究行人将Transformer应用于计算机视觉领域，并在各种视觉任务上获得了显著的性能，与CNN相比。例如，ViT10已在A. Dosovitskiy等人[66]的研究中提出，用于图像分类问题，其有效性已在多个知名基准测试上得到证实。最近，Transformer的能力被应用于解决车辆ReID问题。在本节中，作者讨论了Transformer的监督学习和特征学习应用，其余应用在其他节中进行了回顾。

在L. Du等人的研究中[70]，ViT schema已被定制用于车辆ReID。车辆图像已被分割成 Patch ，线性投影为局部特征，并与视点信息合并，作为Transformer层输入。同样，Z. Yu等人[71]提出了VAT11，作为Transformer框架，将部分级局部特征和车辆属性集成，以实现更明显的特征图。车辆图像已被分割成几个部分，线性投影为视觉特征，并与属性特征（颜色、型号、视点等）相结合，输入到Transformer层，以生成车辆特征图。此外，多样本Triplet Loss已被采用来优化Transformer网络。

M. Li等人[28]关注于同一车辆从不同方向捕获的图像之间显著差异的学习挑战。他们提出了一种基于Transformer的schema来解决这个问题。他们的Transformer考虑了不同方向之间部分级交会的部分级对应关系，通过建模部分内和跨视点之间的对应关系。更具体地说，多个视图图像被分割成部分，通过卷积网络编码器进行约束，然后通过部分级交互在Transformer中提取车辆表示。

正如前文所述，GCN仅考虑部分区域之间的关系，并单独提取局部和全局特征。在F. Shen等人的研究中[26]，GiT12将GCN和Transformer结合在一起，提取全局和局部特征，并学习它们之间的交互和合作。在微观视角下，车辆图像被划分为多个称为patch的具有多个意义的部分，然后线性投影为向量作为顶点，创建一个局部相关图（LCG）。最后，将LCG输入到Transformer层以构建GiT块。每个GiT块都与下一个块相连，模型化局部和全局特征之间的交互，并提供用于车辆ReID的最后判别特征图。

一些研究行人最近将Transformer模型扩展到使用语义和局部视觉特征，以达到更高效的车辆ReID模型。Z. Yu等人[72]开发了SOFCT13 schema，以探索更具有区分性的全局和局部特征。全局特征提取 Pipeline 首先将车辆图像划分为方块，然后通过线性投影层将其映射到高维数据。一个标记学习器被应用于学习这些数据，并在网络训练期间更新以学习整个图像的统计属性。这些特征与诸如颜色、位置、视点和模型等其他属性结合，并输入到Transformer层以挖掘最终的全局特征向量。此外，车辆图像被分为五个类别（前、后、顶、侧），因此图像块也被分为五个类别并使用Transformer层提取加权局部特征。同样，作者[73]开发了MART14框架，以高效地发现前centered全局特征，提取更具有区分性的局部特征，并证明被遮挡的局部特征。首先，为了消除全局特征上的背景效应，车辆图像Mask被估计采用U-Net与SEResNeXt50，预测每个像素的类别标签（Mask值），像素只能收到五个类别标签中的一个，分别是车辆的前、后、顶、侧，用自然数1到4表示。车辆Mask被划分为重叠的块，然后通过线性投影层将其映射到语义特征域。同时，原始车辆图像直接被划分为几个块，然后被flatten和通过线性投影层转换为标记特征域。

语义特征图、标记特征图及其位置信息被 ConCat 起来构建Transformer网络的输入，以产生前centered全局特征。在第二步中，为每个车辆图像构建一个有向GCN，通过将相应的语义特征图进行划分。然后，将GCN的邻接矩阵输入到Transformer层以发现局部特征。此外，GCN用于推理被其他物体遮挡的车辆的局部特征。此外，在Z. Li等人[64]的研究中，作者专注于在没有标注的车辆图像中去除背景效应。更具体地说，他们提出了SMNet，由两个独立的模块NPF和SFE组成，分别负责背景效应减少和细粒度特征发现。NPF将ViT扩展为一个噪声滤波器，在不需要标注的情况下检测背景并消除其影响。SFE使用自注意力机制提取车辆的最显著特征。尽管这个模型看起来是自动化的，并且具有非常低的计算复杂性，但与类似的研究相比，它缺乏足够的特征来实现高性能。

Iii-B3 Knowledge-based Methods

在车辆ReID的背景下，知识指的是除视觉外观特征和车辆属性之外的空间-时间或文本属性。空间-时间属性包括车辆轨迹、摄像头位置和周围摄像头、天气条件、白天状态等。知识-based方法旨在利用视觉特征和车辆属性的外部知识进行车辆ReID。通常，无法在这些方法和其他使用车辆属性和语义特征域的Transformer-based特征学习方法之间划清明确的界限。然而，使用空间-时间线索对于知识-based方法与其他类别区分开来是必要的。

知识-based方法利用空间-时间信息来增强视觉特征并改进检索结果。例如，Y. Shen等人[32]将视觉外观、时间戳和摄像头地理位置定义为视觉-空间-时间状态，并引入两阶段架构来考虑视觉-空间-时间状态并有效改进车辆ReID结果。它通过优化链式MRF15模型来在第一阶段生成 Query 和库图像的时空轨迹。LSTM网络然后验证轨迹，Siamese-CNN计算相似度分数以实现稳健的车辆ReID性能。同样，N. Jiang等人[12]提出了一个两部分的框架，包括CNN基础 Backbone 网络来增加车辆ReID模型的泛化能力。这些部分旨在提取颜色、型号和外观特征。还提出了一种重新排序技术，用于在不同摄像头的车辆图像之间建立空间-时间关系并重新排序相似的外观检索结果。此外，J. Peng等人[77]开发了一个两阶段的schema，第一阶段使用多任务深度网络来发现独特的特征，并在第二阶段采用空间-时间重新排序模块来改进深度网络的结果。在X. Liu等人[48]的研究中，提出了PROVID16 schema，用于考虑车辆ReID的视觉特征、车牌、摄像头位置、上下文信息和基于数据集统计的时空相似性。

此外，在[78]中，利用空间-时间信息来填充车辆ReID任务中的视觉特征的不足。DenseNet121是一个卷积神经网络，用于发现视觉特征并检索每个 Query 的一组图像。然后，结果集中的位置和时间戳被用于形成一个转移时间矩阵，并过滤出异常值和不相关的图像。同样，在研究X. Tan等人的工作中，提出了一种多摄像机车辆ReID方法，该方法在MCMT任务中利用多摄像机空间-时间信息对结果图像施加某些约束并重新排序。J. Tu等人[76]应用了一个两分支CNN基础的基于注意力的模块来发现全局和局部视觉特征以及一个空间-时间模块来建立一个距离函数以测量车辆图像之间的位置和时间戳相似性。而不是使用转移时间矩阵和空间-时间约束，距离函数使用随机变量分布来计算，可以更高效、更容易地扩展到大规模监控系统。

然而，在某些基于知识的方法中，收集空间-时间信息需要大量的手动标注工作，并使用MCMT任务，这损害了这些方法的 scalability 和 generalizability。因此，在最近的工作中，对采用所有空间-时间信息，尤其是相邻摄像机图像之间的关联以及车辆的运动路径，给予的关注较少。通常只使用其中的一些属性。例如，H. Li等人[5]提出了一种基于Transformer的schema，称为MsKAT17，该schema将视点和摄像机位置视为空间-时间信息，并将车辆颜色和类型作为知识向量。

Metric Learning

如图3所示，度量学习的关键目的是学习一个将物体图像映射到新视觉外观空间的表示函数，其中具有相同类别标签的目标尽可能地靠近彼此，而具有不同类别标签的目标则更远离彼此。对比损失和Triplet Loss是度量学习中使用的基本两种损失函数。此外，为了定制度量学习以用于车辆ReID任务，已经开发了各种损失函数。

首先，作者定义一些符号。训练集表示为和: 表示一个神经网络或任何参数函数作为嵌入函数，将输入样本映射到嵌入特征空间。在做出这些假设后，本节概述了损失函数及其在车辆ReID问题中的应用。

交叉熵损失

交叉熵损失，也称为soft-max损失，主要用于处理分类问题，并因此不包括在度量学习范围内。然而，由于在车辆RelD模型中，交叉熵损失与度量学习损失函数一起应用，因此在本小节中进行了介绍。

交叉熵损失计算每个训练样本的目标和预测类标签之间的差异。

Triplet Loss

此外，在R. Kumar等人[92]的研究中，对这些不同的采样方法在车辆ReID问题上的有效性进行了评估，证实了修改后的Triplet Loss与传统Triplet Loss的有效性相比。同样，为了区分正负样本之间的大和小绝对距离，在[93]中，通过向其函数中添加平衡项，对大采样Triplet Loss进行了改进。

J. Yu等人[94]提出了DTL23函数作为Triplet Loss的修改，用于自监督度量学习。具体来说，他们提出了一种无监督的车辆ReID模型，该模型从车辆图像中构建特征词典，并使用DTL对其进行处理，使用未标注的数据训练模型，并增强学习的特征的独特性。Y. Bai等人[95]提出了低收敛速度和特征判别力不足作为Triplet Loss的两个缺点，并引入了ICV24Triplet Loss来克服这些问题。他们采用了一种多任务学习策略，并共同优化了ICVTriplet Loss和交叉熵损失，以生成更多的有歧视性的车辆ReID特征。

此外，VAL和VARID提出了两种视角感知的Triplet Loss函数，以解决车辆ReID中类内相似性和类间相似性问题。特别是，内视角Triplet Loss函数已被定义为考虑同一视角不同车辆的歧视性，而外视角Triplet Loss函数已被部署为强加同一车辆样本在不同的视角下以彼此靠近。视角感知的损失函数是内视角和外视角损失函数的加权平均值。

群体群体学习损失

GGL27提出了一种方法，用于改进Triplet Loss中实例选择敏感性和低收敛速度的问题。首先，将训练数据集分成组，每组只包含同一车辆身份的所有图像。GGL然后更新模型权重，使具有相同身份的实例在嵌入特征空间中靠近彼此，并使不同组尽可能远离彼此。

其他损失函数

在前面各节中研究的损失函数之外，各种损失函数已在各种计算机视觉任务中采用，但作者所知，它们尚未应用于车辆ReID问题。

T. Lin等人[101]开发了focal损失，以解决密集目标检测中训练过程中经常出现的类不平衡问题。此外，范围损失函数和圆损失被引入，以降低类内离散度，同时增加类间相似度。同样，中心损失已在面部识别任务中使用，以提高特征的判别力。多粒度排名损失已在车辆ReID中引入，以实现最具有判别力的深度特征。多类N对损失作为传统三元的通用化，以克服慢收敛问题。此外，在研究X. Wang等人[104]中，提出了排名列表损失，以实现快速收敛和高性能的度量学习，并在研究E. Kamenou等人[34]中，已在车辆ReID任务中使用。

IV Unsupervised Vehicle Re-Identification

近年来，基于卷积神经网络（CNN）的深度学习技术的迅速发展导致了各种监督车辆重识别（ReID）方法的出现。监督方法的性能主要取决于大规模特定领域的标注训练集的可用性，这需要一项耗资和耗时的任务来准备。特别是，训练集不足会导致监督模型在转移到实际的大规模监控系统时，效率会以指数下降。从学者的角度来看，无监督学习是克服这些限制的有效方法，无需标注训练集即可从数据集中捕捉最具有意义模式。

基于深度学习的无监督方法通常基于迁移学习发展，其中在一个数据集上训练的模型被微调或适应以在不同的但相关的数据集上工作，作为目标域。根据源域和目标域是否已标记，迁移学习可以分为四类，如图4所示。由于这种分类，无监督车辆ReID技术可以分为两个主要组：无监督域自适应和完全无监督方法。本节提供对这些方法的全面概述。

Unsupervised domain adaption methods

无监督域自适应涉及在源域（一个领域）的数据上训练一个模型，并在没有标记的目标域（另一个领域）上适应以执行，在训练期间没有使用标记的目标域数据。目标是减少源域和目标域之间的差异，使模型在面对新且未见过的数据时能更好地泛化。在机器学习领域，已经提出了几种用于无监督域自适应的方法，包括域对抗训练、实例基础方法、自编码技术、特征对齐和基于GAN的方法。这些方法在模型训练期间使用各种策略来解决域间差异。例如，域对抗训练，如DANN ，利用域判别器在训练主任务时，同时对来自不同域的表示进行对齐。另一种方法是实例基础方法，它通过使用技术如MMD或CORAL 来匹配域分布来达到域分布的对齐。自编码技术，如Mean Teacher 、VAT 、PSUReID 和HyPASS ，通过伪标签化使用一致性正则化来稳定跨域偏移的预测。特征对齐技术，如Deep CORAL 和VAE ，通过修改模型架构或学习目标来显式地对齐域间特征，通常包括域特定的归一化或适应层。基于GAN的方法，例如CycleGAN 和DiscoGAN ，将GAN框架扩展到生成类似于源域的合成目标域数据，有效地减少了域间差异。据作者所知，关于无监督车辆ReID，特别是无监督域自适应的研究还很少，大部分研究集中在行人ReID任务上。

[115]和[116]的作者解决了由训练（源域）和测试（目标域）数据集之间的显著性能退化所引起的挑战。这个挑战源于不同领域的异质性，表现在各种图像特征上，包括不同的背景、光照、分辨率和摄像机视角的差异。为了克服这个挑战，J. Peng等人[115]提出了VTGAN，这是一个图像到图像的转换框架，旨在将源域的风格转移到目标域，同时保持它们的身份信息。此外，他们还提出了ATTNet，利用基于注意力的结构训练生成的图像，从而在车辆ReID的背景下发现更多的独特特征，同时抑制背景。

在C.-S. Hu等人[117]的研究中，车辆姿态的转换被表述为一个域适应任务。PTGAN被设计为接收表示车辆视点的关键点，然后生成一个对应于新视点的假图像来解决姿态变化问题。此外，在[118]中，探索了识别跨不同领域的相同车辆的任务，即包括白天和夜晚领域，作为一个域适应问题。介绍了一种基于GAN的框架，将两个输入图像转换为属于另一个领域的图像。然后，利用四分支Siamese网络学习两个不同领域图像之间的距离度量。

通过UDA学习的表示通常缺乏任务特定方向，这意味着它们通常不会同时具备分类判别和域可转移的特点。在UDA中的车辆ReID领域，已经致力于解决这一问题。值得注意的是，作者在[119]中引入了DTDN。这个框架将数据表示分为两个截然不同的部分：一个包含任务相关的元素，包括跨域任务相关的关键信息；另一个包含与任务无关的方面，包括无法转移或破坏性的数据。域间使用任务特定目标函数来调节这些部分。这种正则化明确地促进解耦，而不需要使用生成模型或解码器。R. Wei等人[116]在研究中首次引入了Transformer在UDA车辆ReID中的应用，以克服所提到的问题。这个基于Transformer的网络旨在增强图像中上下文信息的整合。具体来说，该网络适应地指导注意力在源域和目标域之间的判别性车辆组件。它包含一个域编码器模块来识别域不变的特征并减轻域相关因素的影响。此外，在每次训练周期开始之前，应用对比聚类损失对目标样本的特征表示进行聚类。这些聚类随后被分配标签，作为后续训练过程的伪身份来监督训练。

伪标记技术仍然是解决UDA车辆ReID任务的主要选择，因为它们的性能优越[29, 110]。然而，伪标记的有效性极大地取决于通过聚类方法直接影响伪标签生成的特定超参数的选择。为解决这个挑战，[111]中提出的方法HyPASS被引入为一种专门针对UDA聚类中伪标签超参数自动和循环调整的技术。

HyPASS包括伪标记方法框架中的两个基本组成部分：首先，超参数的选择取决于来自标记源数据的验证集；其次，通过特征判别性的条件对齐来优化超参数选择，这是一种通过分析源样本进行磨练的过程。同样，Z. Lu等人[29]介绍的MAPLD方法在UDA车辆ReID的背景下，同时增强了伪标记技术的精度，并有效地减少了伪标签噪声。

尽管基于UDA的方法在车辆ReID方面取得了成就，但它们通常需要来自不同领域的附加信息，这可能限制了它们在实际场景中的适用性。因此，有时完全无监督的方法由于与实际应用的兼容性而受到青睐，避免了从不同领域获取额外数据的需要。

Fully unsupervised methods

完全无监督方法可以直接从未标注的数据中提取有意义的信息，无需标注或标记数据。这种特性使得这些方法更适合和适应实际应用和场景。这些方法主要关注开发多种聚类技术和渐进训练策略作为其关键焦点。

渐进学习遵循逐步学习信息的方法，从简单的概念开始，逐步发展到更复杂的概念。这种方法已在不同的计算机视觉任务中广泛应用，如人脸识别，图像分类，行人ReID，等等。DUPL-VR 和VR-PROUD 专门针对车辆ReID的挑战，通过在无监督方式中实现渐进策略而设计。首先，将未标注的图像输入到基础CNN网络中，利用预先建立的权重来提取特征。这些特征经过聚类过程，获得作为“伪”标签的聚类ID。然后，应用特定的启发式约束来改进聚类结果，以增强聚类的准确性和稳定性。然后，使用聚类后的车辆作为额外CNN网络的校准，该网络的架构与基础CNN相同。这个迭代过程通过将不断增强的聚类纳入训练数据集，不断扩展训练数据集，实现无监督的自渐进学习，直到收敛。A. Zheng等人[123]提出了一种以渐进学习为中心的无监督车辆Re-ID的视角感知聚类方法。首先，使用视角预测网络提取视角细节，同时通过利用斥力损失函数学习每个样本的独特特征。然后，将特征空间根据预期的视角划分为不同的子空间。然后，应用渐进聚类算法来发现样本之间的精确关系，并增强网络的判别能力。

类似地，在[3]中提到的研究行人将渐进学习应用于解决无监督车辆ReID挑战。他们受到[124]的启发，主要关注区分可靠样本并实现网络的渐进算法训练。他们的方法有两个基本差异：首先，他们设计了一个多支路背部来捕捉全局和局部特征，利用这种双重信息来创建可靠聚类，从而减轻难以样本的影响。此外，他们的方法开始阶段分别利用全局和局部特征进行训练，然后逐渐过渡到这些特征的融合，因为网络的能力在后续阶段发展。

V Data Sets

不同的研究小组已经准备了许多标准数据集和基准来验证车辆ReID模型的优越性。本节将详细检查这些数据集，特别是它们的优点和局限性。

VehicleID

在中国一个小规模的白天，许多不重叠的监控摄像头收集了"车辆ID"数据集。平均每辆车有8.44张图像（总共221763张来自26267辆车）。

在这个数据集中，有90196张图像，其中10319辆车带有其模型信息（只有250个最流行的模型）。此外，考虑了车辆的两个方向，包括前或后，并且未标注视图信息。每辆车包含多于一个图像，因此该数据集适用于车辆检索任务。

这个数据集包括训练集和测试集。训练集中有110178张图像，涉及13134辆车，其中47,558辆带有车辆模型信息。测试集中有111585张图像，涉及13133辆车，其中42638张带有车辆模型信息。

这个数据集是在相对受限的情况下收集的，大约有20个摄像头在白天使用，包括两种方向视图，一些照明变化和简单的背景。因此，它不包含评估所有车辆ReID场景和挑战所需的基准。

这个数据集是在相对受限的情况下收集的，大约有20个摄像头在白天使用，包括两种方向视图，低照度变化，以及简单的背景。因此，它不包括所需的基准和数据来评估所有车辆ReID挑战。

VeRi-776

VeRi-776数据集是从VeRi数据集中构建的。大约20个交通监控摄像头在各种条件下收集了VeRi数据集，如方向、照度和遮挡。它包含619辆车的40000张图像，带有各种属性，包括车辆边界框、品牌、类型和颜色。

VeRi-776数据集是通过在三个方面扩展VeRi数据集而构建的：增加数据量、考虑车牌号码，并将车辆轨迹视为时空信息。它包含超过50000辆车辆图像，776辆车辆身份和约9000个轨迹。VeRi-776数据集包括训练集（576辆车辆和37781张图像）和测试集（200辆车辆和11579张图像）。

这个数据集是在一个单一的白天（下午4点到5点）在一个1平方公里的小区域内记录的，因此缺乏足够的测试床来评估所有车辆ReID的挑战。

VD1 and VD2

VD1和VD2数据集是从交通摄像头和监控视频中分别收集的车辆正面图像。在这两个数据集中，每辆车的颜色、型号和识别号码都被用作车辆图像的属性向量。

VD1数据集包含846358张图像，涉及141756辆车，有11种颜色和1232种型号，分为训练集和测试集。VD2数据集包含807260张图像，涉及79763辆车，有11种颜色和1112种型号。两个数据集的训练集和测试集的特性如表2所示。

这些数据集在车辆ReID挑战中大大简化了问题，因为大多数图像是从单一视图捕获的。因此，在这些数据集上的性能已经饱和，最近一种方法在VD1和VD2上分别实现了97.8和95.5%的准确率。

Vric

这个数据集包含由60个摄像头的复杂道路交通监控系统在白天和夜晚捕获的60,430张图像，涉及5622辆车辆的身份。VRIC包括24个监控位置，几乎覆盖了由分辨率、运动模糊、天气条件和遮挡差异引起的车辆几乎无限的外观。

这个数据集被分为训练集和测试集。训练集包括54,808张图像，涉及2811个身份，而测试集包括5622张图像，涉及2811个身份。所有图像都注明了汽车型号、颜色和类型。

尽管VRIC数据集考虑了车辆ReID在实际世界中的大多数挑战，但它仍然存在车辆类型和模型有限、缺乏详细车辆属性、图像面积较小以及训练集和测试集摄像机重叠等问题。

CityFlow

四十二个非重叠监控摄像头在美国一个中型城市十个交叉口之间收集了"CityFlow"数据集，两个摄像头之间的最大距离为2.5公里。该数据集包含229680辆车的图像，涉及666个不同的车辆身份，每个车辆至少通过两个摄像头。

这个数据集包含3.25小时的视频，包含如高速公路、公路和交叉口等地点。每个视频的起始时间偏移都进行了标注，大多数视频以每秒10帧的速度捕捉，分辨率至少为960p。

CityFlow是第一个支持多目标多摄像头（MTMC）车辆跟踪的公开基准。为此，表3中展示了五个场景。

此外，为了支持基于图像的车辆ReID，CityFlow的一部分被称为CityFlowReID已经开发出来。CityFlow-ReID包含总共56277辆车的图像和4.55个摄像头视图的平均666个不同的车辆身份。它包括一个训练集，包含333个车辆身份和36935张图像，以及一个测试集，包含333辆车和18290张图像。

VERI-Wild 2.0

VERI-Wild 2.0数据集是通过扩展VERI-Wild[128]来全面评估车辆ReID模型的判别和泛化能力而开发的。这个数据集是在一个超过200平方公里的都市区域的274个摄像头的巨大CCTV监控系统中，24小时收集了一个月的图像。

这个数据集包含许多同一型号的车辆，其样本包括非常复杂的背景、各种方向、严重的遮挡和不同的天气条件。它包含825042张图像，涉及42790个车辆身份，涵盖了各种场景，包括城市道路、街道交通灯区域、交叉口、高速公路收费站和匝道入口。有30％以上的身份是在白天和夜间录制的。此外，还标注了辅助属性、车辆颜色、车辆类型和车辆品牌，以提高车辆的视觉特征图。

这个数据集包含许多同一品牌或型号的车辆实例。平均而言，在雾天、雨天和晴天，每辆车的每个身份都被从不同的视点获取约59个样本。更具体地说，在雾天和雨天，分别有7.1％和3.48％的数据是在这两种天气条件下捕获的。

这个数据集被分为训练集和测试集，分别包含277797和398728张图像。此外，174个摄像头捕捉训练集，100个摄像头用于测试集。由于训练集和测试集中的摄像头不重叠，因此可以在不同的光线条件、视点和复杂背景下评估车辆ReID模型的判别和泛化能力。测试集被分为三个子集图像，以全面评估车辆ReID模型并研究方向、光线和天气变化的影响。

基于不同标准对所调查的数据集进行全面的车辆ReID比较，结果如表4所示。

VI Evaluation Strategies

现有文献中提出了许多评估策略，这些策略强调了数据集选择和性能指标是车辆ReID评估的关键方面。通过采用这些评估策略，研究行人和从业行人可以全面评估和比较不同车辆ReID方法的有效性，为该领域的进步铺平道路。

Dataset Selection

利用包含各种在不同场景、时间和环境条件下获得的车辆图像的标准数据集来评估研究挑战是至关重要的。在数据集中实现严格的训练和测试划分是确保公正评估和避免过拟合问题的关键。此外，可以通过在不同数据集上评估模型来衡量其通用性和鲁棒性。这验证了模型在训练数据之外的各种设置下的性能。此外，还需要考虑各种评估场景，如单张或多张重识别、相机内匹配或相机间匹配，以及在不同条件下的评估，如遮挡或光照变化。

前面部分提供了一个对已建立的用于评估车辆ReID模型数据集的全面回顾。

Performance Metrics

重新识别算法有效性的常用度量指标包括排名、mAP1、精确率-召回曲线和CMC2曲线。

排名比例

在车辆ReID中，对车辆进行排名的过程需要对 Query 车辆图像提取的特征与所有 gallery 中的图像进行彻底比较。这种比较使得图像按照相似度降序排列，最相似的图像排在较高的排名位置。对于选定的数据集的 ground truth，在有序列表中的第一个位置，其图像与 Query 图像对应的同一种车辆，表明了其排名并具有最重要的评估意义。

排名比例标准是通过将指定排名中准确重新识别的 Query 图像数量除以测试集中 Query 图像的总数来推导的。这个度量指标直接表明系统在预定义排名内精确重新识别车辆的有效性。例如，排名-k时的排名比例显示了算法在 Query 结果中正确识别的车辆图像数量，这些图像的排名不超过k。

mAP（平均精确率）

精度（Precision）和召回率（Recall）虽然作为单一值标准有价值，但它们基于 ReID 方案检索的所有图像。在车辆 ReID 的背景下，由于模型提供了图像的排名列表，因此考虑每个图像在列表中的位置是有益的。通过在列表中的每个位置计算精度和召回率，可以实现精度-召回曲线。平均精度（AP）的定义如下：

CMC (查准率-查全率曲线)

VII Discussion and Challenges

为了根据所提出的分类法评估基于深度学习的车辆 ReID 方法，表5 展示了使用 Veri-776 和 VehicleID 数据集的最先进方法在车辆 ReID 上的性能比较。显然，基于 Transformer 的特征学习和度量学习在与其他类别相比表现出了优越性能。

MsKAT 是一种基于知识的方法，其效率来源于使用了一个多尺度知识感知的 Transformer，其高性能可以归因于 Transformer 架构的战略性集成。此外，由于训练和测试域之间固有的差异，无监督方法的有效性，尤其是域适应技术，显著降低。这种域之间的适应性在实际车辆 ReID 任务中造成了巨大的挑战。

此外，为了衡量数据集的复杂性和模型在实际挑战中的适应性，作者在 VERI-Wild 和 VERI-Wild 2.0 数据集上呈现了一些最先进方法的表现评估。表5、VI 和 VII 的分析显示 VERI-Wild 2.0 数据集的高复杂性导致模型准确度的降低。因此，该数据集是评估车辆识别模型的合适基准。

智能视频监控系统的广泛应用导致了车辆 ReID 需求的急剧增长。尽管在一段时间内进行了大量和持续的努力，但该领域主要面临两个显著挑战。首先，在同一辆车的不同模式下捕获的图像中观察到的内插差异，包括摄像机视图、车辆视角和捕捉时间的差异。其次，在不同车辆之间遇到的实例相似性，特别是在共享相同特性（如颜色、类型和制造商）的情况下。此外，在将车辆 ReID 应用于交通监控场景时，不同摄像机之间的图像分辨率、不同的摄像机角度、天气条件和不同的照明条件会导致车辆外观的巨大差异，这给车辆 ReID 带来了巨大的挑战。下面解释了车辆 ReID 面临的问题的复杂性和挑战。

Viewpoint Variability

车辆在外观上可能会因摄像头角度、距离和方向的变化而出现显著差异。为了克服这些视点变化，确保识别的一致性，提取视点不变的特征仍然具有挑战性。

Appearance Variations

外部因素，如照明条件、天气、遮挡或修改（增加/减少配件），可能会改变车辆的外观，使一致的识别变得具有挑战性。

Scale and Resolution

车辆图像在不同的摄像机上可能具有不同的分辨率和缩放，这会影响特征提取和匹配的准确性。

Intra-Class Variability

同一品牌和型号的车辆由于修改、不同版本或磨损等原因可能表现出显著的视觉差异，这使得在相似车辆之间进行区分变得更加复杂。

Limited Annotated Data

尽管存在各种不同的数据集，但是覆盖所有可能情况的标注数据仍然不足，这仍然是一个重大的挑战，它对训练出强大的模型造成了困难，同时也阻碍了准确和泛化性算法的开发。

Real-time Processing

显然，深度学习模型面临指数级的时间复杂性，这是它们在实时应用中面临的一个持久且显著的障碍。因此，在实时交通监测或管理系统中准确重新识别车辆需要部署具有快速处理能力的算法。

Privacy and Ethical Concerns

平衡识别的有效性与尊重隐私权，尤其是在公共监视中，是一个关键的挑战。

VIII Conclusion

车辆 ReID 领域关注的是从分布在不同交通环境下的摄像机网络获取的车辆图像之间的关联。智能视频监控系统的广泛采用催生了车辆 ReID 技术的显著需求。这一任务在车辆为中心的技术领域中具有首要的重要性，作为实现智能交通系统（ITS）和开发智能城市的倡议的关键催化剂。深度学习的最新进展显著加速了车辆 ReID 技术的演变。本文对应用于车辆 ReID 的深度学习方法进行了全面的探索。

本文提出的方法可以分为两个主要类别：有监督方法和无监督方法。在有监督方法中，模型主要关注从车辆图像中获取独特的视觉特征，将其视为分类问题。相反，其他模型优先考虑通过应用特定的损失函数进行深度度量学习。无监督方法试图从数据中提取相关信息，而无需考虑类标签，分为两个截然不同的组：无监督域自适应和完全无监督方法。本文对已建立的标准化数据集和评估标准进行了详细的审查，并详细分析了来自最先进论文的实验结果。本文旨在提供一个指导框架和有价值的资源，以指导该领域的未来研究。

#GenAD

本文提出了一个用于从视觉输入进行更好规划的生成式端到端自动驾驶（GenAD）框架。研究了传统的自动驾驶感知、预测和规划的串行设计，并提出了一个全新的生成式框架，以实现高阶自车-agent交互，并通过学习的结构先验生成更准确的未来轨迹。中科慧拓和中科院自动化所最新提出的GenAD—超越UniAD

生成式人工智能（Generative AI）正催生出科技领域的一场创新革命，其中ChatGPT作为开创性的代表，展示了强大的自然语言处理和生成能力。本文将生成式人工智能（Generative AI）和端到端自动驾驶技术结合，提出生成式端到端自动驾驶GenAD。GenAD提出以实例为中心的场景表示，首先将周围场景转换为地图和感知实例。然后，使用变分自编码器在结构化隐空间中学习未来轨迹分布，用于轨迹先验建模。进一步采用时序模型来捕捉隐空间中的agent和自车运动，以生成更有效的未来轨迹。最终，GenAD通过在学习的结构化隐高斯空间分布中采样，并使用学习的时序模型生成未来信息，同时执行运动预测和规划。GenAD超越CVPR2023 best paper UniAD，在广泛使用的nuScenes基准测试中进行的实验证明，所提出的GenAD在以视觉为中心的端到端自动驾驶方面取得了SOTA的性能。

论文链接：https://arxiv.org/abs/2402.11502
代码链接：https://github.com/wzzheng/GenAD

中科慧拓技术团队新成果

中科慧拓技术团队和中科院自动化所共同提出的生成式端到端自动驾驶模型GenAD，将生成式人工智能（Generative AI）和端到端自动驾驶技术结合，是业界首个生成式端到端自动驾驶模型。该技术颠覆了UniAD的渐进式流程端到端方案，探讨了一种新的端到端自动驾驶范式，关键在于采用生成式人工智能的方式预测自车和周围环境在过去场景中的时序演变方式。

技术上本方案提出以实例为中心的场景表示，首先将周围场景转换为地图和感知实例。然后，使用变分自编码器在结构化隐空间中学习未来轨迹分布，用于轨迹先验建模。进一步采用时序模型来捕捉隐含空间中的agent和自车运动，以生成更有效的未来轨迹。最终，GenAD通过在学习的结构化隐高斯空间分布中采样，并使用学习的时序模型生成未来信息，同时执行运动预测和规划。

该模型在城市场景数据集nuScenes已经取得了SOTA的性能，并在实时性能上远超UniAD。同时，中科慧拓技术团队正在进行该技术方案的场景迁移，未来该技术计划推广到矿区自动驾驶场景，助力矿区自动驾驶应用落地。

直接从原始传感器生成规划结果一直以来都是自动驾驶的一个长期期望解决方案，并近年来越来越受到关注。大多数现有的端到端自动驾驶方法将这个问题分解为感知、运动预测和规划。然而，本文认为传统的渐进式流程仍然不能全面地建模整个交通演化过程，例如自车与其他交通参与者之间的未来互动以及结构轨迹先验。在本文中，本文探讨了一种新的端到端自动驾驶范式，关键在于预测自车和周围环境在过去场景中的演变方式。本文提出了GenAD，这是一个将自动驾驶转化为生成建模问题的框架。GenAD提出以实例中心的场景表示，首先将周围场景转换为地图和感知实例。然后，使用变分自编码器在结构化隐空间中学习未来轨迹分布，用于轨迹先验建模。进一步采用时序模型来捕捉隐含空间中的agent和自车运动，以生成更有效的未来轨迹。最终，GenAD通过在学习的结构化隐高斯空间分布中采样，并使用学习的时序模型生成未来信息，同时执行运动预测和规划。在广泛使用的nuScenes基准测试中进行的实验证明，所提出的GenAD在以视觉为中心的端到端自动驾驶方面取得了SOTA的性能。

问题背景

视觉为中心的自动驾驶近年来得到了广泛研究，因其经济便利性而备受关注。虽然研究人员在各种任务中推动了以视觉为中心的自动驾驶的极限，包括3D物体检测、地图分割和3D语义占用预测，但最近以视觉为中心的端到端自动驾驶的进展揭示了一条直接从原始传感器产生规划结果的潜在而优雅的技术路径。

大多数现有的端到端自动驾驶模型由多个模块组成，遵循感知、运动预测和规划的流程。例如，UniAD进一步渐进性地执行地图感知、检测、跟踪、运动预测、占用预测和规划模块，以提高系统的鲁棒性。研究还观察到，使用规划目标可以提高中间任务的性能。然而，现有流水线的序列设计忽略了现有Pipeline中预测和规划之间可能的未来交互，GenAD认为这种交互对准确的规划很重要。例如，自车的车道变化会影响后方车辆的行动，并进一步影响自车的规划。这种高阶交互无法通过当前设计在规划之前进行运动预测有效建模。此外，未来轨迹具有高度结构化并共享一个共同的先验（例如，大多数轨迹都是连续的直线）。然而，大多数现有方法未能考虑这个结构先验，导致不准确的预测和规划。

详解GenAD

图 1生成式端到端自动驾驶框架图

提出了一个生成式端到端自动驾驶（GenAD）框架（如图1所示），将自动驾驶建模为一个轨迹生成问题，以释放端到端方法的全部潜力。GenAD提出了一个场景表示器，用于获取以实例为中心的场景表示，聚焦于实例但也整合了地图信息。为实现这一点，使用一个骨干网络提取每个周围摄像头的图像特征，然后将其转换为3D鸟瞰图（BEV）空间。进一步使用交叉注意力从BEV特征中提炼高级地图和agent token。然后，添加一个自车token，并使用自车-agent自注意力捕捉它们的高阶交互。通过交叉注意力进一步注入地图信息以获得具有地图感知的实例标记。为了建模未来轨迹的结构先验，学习一个变分自编码器，将地面实况轨迹映射到考虑运动预测和驾驶规划的不确定性的高斯分布。然后，使用一个简单而有效的门控循环单元（GRU）进行自回归，以建模结构化隐空间中的实例移动。在推理过程中，从学习的分布中采样，条件是以实例为中心的场景表示，因此可以预测不同的可能未来。GenAD可以同时执行运动预测和规划，使用统一的未来轨迹生成模型。在广泛使用的nuScenes基准测试上进行了大量实验证明，评估了所提出的GenAD框架的性能。基于生成建模，GenAD在高效性能方面取得了最先进的基于视觉的规划性能。

1）以实例为中心的场景表示

端到端自动驾驶的第一步是对传感器输入进行感知，以获取对周围场景的高级描述。这些描述通常包括语义地图和实例边界框。为了实现这一点，GenAD遵循传统的以视觉为中心的感知流程，首先提取鸟瞰图（BEV）特征，然后在此基础上进行进一步的地图和边界框特征的优化。

由于预测和规划主要关注agent和自车的实例，因此提出了一种实例为中心的场景表示，以全面且高效地呈现自动驾驶场景。首先将自车token添加到学到的agent标记中，构建一组实例tokens。

现有方法通常以串行方式执行运动预测和规划，忽略了未来自车运动对agent的影响。例如，自车的车道变化可能会影响后方车辆的行动，使得运动预测结果不准确。与之不同的是，GenAD通过对实例标记执行自注意力来实现自车和其他agent之间的高阶交互：

SA(Q,K,V) 表示由使用 Q、K 和 V 作为查询、键和值的自注意力层组成的自注意力块。

此外，为了进行准确的预测和规划，agent和自车都需要了解语义地图信息。因此，GenAD在更新后的实例token和学到的地图token之间使用交叉注意力，获取地图感知的实例为中心的场景表示：

学到的实例标记 I 结合了高阶agent-自车交互，并了解了学到的语义地图，这些地图紧凑但包含执行运动预测和轨迹规划所需的所有必要地图和实例信息。

2）轨迹先验建模

其他车辆的运动预测目标和自车规划共享相同的输出空间，本质上是相同的。它们都旨在在给定语义地图和与其他车辆的交互的情况下，产生所关注实例的高质量真实轨迹。因此，提出的GenAD的目标可以被表述为在给定具有地图感知的以实例为中心的场景表示 I 的情况下，推断未来轨迹 T。

自车和其他车辆的轨迹都具有高度结构化（例如，连续性）并遵循一定的模式。例如，大多数轨迹是直线，表示车辆以恒定速度行驶，而有些轨迹是曲线，表示车辆右转或左转时曲率近似恒定。只有在极少数情况下，轨迹会呈锯齿状。考虑到这一点，GenAD采用变分自编码器（VAE）架构来学习一个隐空间 Z 以建模轨迹的先验知识。具体而言，使用未来轨迹groundtruth编码器，来建模未来轨迹的隐含空间 Z 。

其中，N(μ,σ^2)表示均值为μ，标准差为σ的高斯分布。

3）隐含未来轨迹生成

在获得未来轨迹的隐含分布作为先验之后，需要明确地从隐含轨迹空间 Z 解码它们。虽然一种直接的方法是使用基于MLP的解码器直接在BEV空间中输出轨迹点以建模，但它未能对交通agent和自车的时间演变进行建模。为了考虑不同时间戳上实例的时间关系，将联合概率分布分解如下：

然后，采用门控循环单元（GRU）作为未来轨迹生成器，以建模实例的时间演变。与直接输出整个轨迹的单一解码器相比，MLP解码器执行的任务更简单，仅对BEV空间中的位置进行解码，而GRU模块则模拟了隐含空间Z中agent的移动。因此，考虑到在这个学习结构化隐空间中的先验知识，生成的轨迹更加真实和可信。

4）生成式端到端自动驾驶

在本小节中，介绍了提出的GenAD框架的整体架构，用于以视觉为中心的端到端自动驾驶。给定周围摄像机信号 s 作为输入，首先使用图像骨干网络提取多尺度图像特征 F，然后使用可变形注意力将它们转换为BEV空间。将过去 p 帧的BEV特征对齐到当前自车坐标，得到最终的BEV特征 B。使用全局交叉注意力和可变形注意力分别对地图标记 M 和agent标记 A 进行细化。为了建模交通agent与自车之间的高阶交互，将agent标记与自车标记结合，并在它们之间执行自注意力，构建一组实例标记 I。使用交叉注意力将语义地图信息注入到实例标记 I 中，以促进进一步的预测和规划。

其中，λplan、λmap和λdet是平衡因子。提出的GenAD可以以高效的端到端方式进行训练。GenAD将端到端自动驾驶建模为一个生成问题，通过在结构化隐空间中进行未来预测和规划，考虑了现实轨迹的先验，从而产生高质量的轨迹预测和规划。

GenAD实验结果

表1. 在nuScenes 验证集上与最先进的方法在运动规划性能方面的比较。

在表1中将GenAD与最先进的端到端自动驾驶方法进行了比较。可以看到，GenAD在所有方法中取得了最佳的L2误差，并且具有高效的推理速度。尽管UniAD 在碰撞率方面优于GenAD的方法，但它在训练过程中使用了额外的监督信号，如跟踪和占用信息，这些信息已经被验证为在避免碰撞方面至关重要的信息。然而，这些在3D空间中的标签很难标注，使得使用更少的标签实现有竞争力的性能并不是一件轻松的事情。GenAD比UniAD更高效，展示了性能和速度之间的强大平衡。

GenAD可视化效果

图2. GenAD结果的可视化

可以看到，在包括直行、超车和转弯在内的各种场景中，GenAD产生了比VAD更好且更安全的轨迹。对于涉及多个agent的复杂交通场景的挑战性情境，GenAD仍然展现出良好的结果。

总结

本文提出了一个用于从视觉输入进行更好规划的生成式端到端自动驾驶（GenAD）框架。研究了传统的自动驾驶感知、预测和规划的串行设计，并提出了一个全新的生成式框架，以实现高阶自车-agent交互，并通过学习的结构先验生成更准确的未来轨迹。在广泛采用的nuScenes数据集上进行了大量实验证明了所提出的GenAD框架的规划性能处于领先水平。在未来，探索其他生成建模方法，如生成对抗网络或扩散模型，用于端到端自动驾驶将是一个有趣的方向。

为了消除高成本数据收集的限制，并增强模型的泛化能力，从网络获取了大量数据，并将其与多样化和高质量的文本描述配对。由此产生的数据集累积了超过2000小时的驾驶视频，涵盖了世界各地具有多样化天气条件和交通场景的区域。本文提出了GenAD，它继承了最近潜在扩散模型的优点，通过新颖的时间推理模块处理驾驶场景中的挑战性动态情况。它可以以zero-shot的方式泛化到各种未见的驾驶数据集，超越了一般或驾驶特定的视频预测模型。此外，GenAD可以被调整为一个动作条件的预测模型或一个运动规划器，具有在真实世界驾驶应用中的巨大潜力。

自动驾驶agents作为高级人工智能的一个有前景的应用，感知周围环境，构建内部世界模型表示，做出决策，并作出响应行动。然而，尽管学术界和工业界已经进行了数十年的努力，但它们的部署仍然受到限制，仅限于某些区域或场景，并且不能无缝地应用于整个世界。其中一个关键原因是学习模型在结构化自动驾驶系统中的有限泛化能力。通常，感知模型面临着在地理位置、传感器配置、天气条件、开放目标等多样化环境中泛化的挑战；而预测和规划模型则面临着无法泛化到具有不确定未来的情景和不同驾驶意图的挑战。受人类学习感知和认知世界的启发，本文主张将驾驶视频作为通用接口，用于泛化到不同的环境和动态未来。

基于这一观点，预测驾驶视频模型被认为是完全捕捉驾驶场景世界知识的理想选择（如上面图1所示）。通过预测未来，视频预测器基本上学习了自动驾驶的两个关键方面：世界如何运行，以及如何在复杂环境中安全操控。

近年来，社区已经开始采用视频作为表示观察行为和动作的接口，用于各种机器人任务。对于诸如经典视频预测和机器人技术的领域，视频背景主要是静态的，机器人的移动速度较慢，视频的分辨率较低。相比之下，对于驾驶场景，它需要应对室外环境高度动态化、agents具有更大运动范围以及传感器分辨率覆盖大范围视野的挑战。这些差异导致了自动驾驶应用面临着重大挑战。

幸运的是，在驾驶领域已经有一些初步尝试开发视频预测模型。尽管在预测质量方面取得了令人鼓舞的进展，但这些尝试并没有像经典机器人任务（例如控制）中那样实现理想的泛化能力，而是局限于限定的情景，例如交通密度低的高速公路，以及小规模的数据集，或者受限的条件，难以生成多样化的环境。如何发掘视频预测模型在驾驶领域的潜力仍然鲜有探索。

受以上讨论的启发，我们的目标是构建一个用于自动驾驶的视频预测模型，能够泛化到新的条件和环境。为了实现这一目标，需要回答以下问题：

（1）如何以可行和可扩展的方式获取数据？

（2）我们如何构建一个预测模型来捕捉动态场景的复杂演变？

（3）如何将（基础）模型应用于下游任务？

规模化数据。 为了获得强大的泛化能力，需要大量且多样化的数据。受基础模型从互联网规模数据中学习成功的启发，我们从网络和公共许可的数据集构建我们的驾驶数据集。与现有的选项相比，由于其受到监管的收集流程的限制，现有的选项在规模和多样性上受到限制，而在线数据在几个方面具有很高的多样性：地理位置、地形、天气条件、安全关键场景、传感器设置、交通元素等。为了确保数据具有高质量且适合大规模训练，我们通过严格的人工验证从YouTube上详尽地收集驾驶记录，并删除意外损坏帧。此外，视频与各种文本级别的条件配对，包括利用现有的基础模型生成和优化的描述，以及由视频分类器推断出的高级指令。通过这些步骤，我们构建了迄今为止最大的公共驾驶数据集OpenDV-2K，其中包含超过2000小时的驾驶视频，比广泛使用的nuScenes数据集大374倍。

通用预测模型。 学习一个通用的驾驶视频预测器面临几个关键挑战：生成质量、训练效率、因果推理和视角剧烈变化。我们通过提出一种新颖的两阶段学习的时间生成模型来解决这些方面的问题。为了同时捕捉环境细节、提高生成质量和保持训练效率，我们借鉴了最近潜在扩散模型（LDMs）的成功经验。在第一阶段，我们通过对OpenDV-2K图像进行微调，将LDM的生成分布从其预先训练的通用视觉领域转移到驾驶领域。在第二阶段，我们将所提出的时间推理模块插入到原始模型中，并学习在给定过去帧和条件的情况下预测未来。与传统的时间模块不同，我们的解决方案包括因果时间注意力和分离的空间注意力，以有效地建模高度动态的驾驶场景中的剧烈时空转移。经过充分训练，我们的自动驾驶生成模型（GenAD）能够以零样本方式泛化到各种场景。

仿真和规划的扩展。 在进行视频预测的大规模预训练之后，GenAD基本上了解了世界的演变方式以及如何驾驶。我们展示了如何将其学习到的知识应用于真实世界的驾驶问题，即仿真和规划。对于仿真，我们通过使用未来的自车轨迹作为额外条件，对预先训练的模型进行微调，将未来的想象与不同的自车行为联系起来。我们还赋予了GenAD在具有挑战性的基准测试中执行规划的能力，通过使用轻量级规划器将潜在特征转化为自车未来轨迹。由于其预先训练能力能够准确预测未来帧，我们的算法在仿真一致性和规划可靠性方面展现出了令人期待的结果。

OpenDV-2K Dataset

OpenDV-2K数据集 这是一个用于自动驾驶的大规模多模态数据集，以支持通用视频预测模型的训练。其主要组成部分是大量高质量的YouTube驾驶视频，这些视频来自世界各地，并经过精心筛选后被收入我们的数据集中。利用视觉-语言模型自动生成了这些视频的语言标注。为了进一步提高数据集中的传感器配置和语言表达的多样性，将7个公开授权的数据集合并到我们的OpenDV-2K中，如表1所示。

因此，OpenDV-2K总共包含了2059小时的视频与文本配对，其中1747小时来自YouTube，312小时来自公开数据集。使用OpenDV-YouTube和OpenDV-2K来指定YouTube拆分和整体数据集，分别表示YouTube拆分和整体数据集。

与先前数据集的多样性比较

表1提供了与其他公开数据集的简要比较。除了其显著的规模外，提出的OpenDV-2K在以下各个方面都具有多样性。

全球地理分布。 由于在线视频的全球性质，OpenDV-2K覆盖了全球40多个国家和244个城市。这相比于先前的公开数据集是一个巨大的改进，先前的数据集通常只收集在少数受限制的地区。在图2中绘制了OpenDV-YouTube的具体分布。

开放式驾驶场景。 本数据集提供了大量的现实世界中的驾驶经验，涵盖了像森林、大雪等极端天气条件以及对交互式交通情况做出的适当驾驶行为等稀有环境。这些数据对于多样性和泛化至关重要，但是在现有的公开数据集中很少被收集。

无限制的传感器配置。 当前的驾驶数据集局限于特定的传感器配置，包括内在和外在的相机参数、图像、传感器类型、光学等，这给使用不同传感器部署学习模型带来了巨大挑战。相比之下，YouTube驾驶视频是在各种类型的车辆上录制的，具有灵活的相机设置，这有助于在使用新的相机设置部署训练模型时的稳健性。

迈向高质量多模态数据集

驾驶视频收集与筛选。 从广阔的网络中找到干净的驾驶视频是一项繁琐且成本高昂的任务。为了简化这个过程，首先选择了某些视频上传者，即YouTubers。从平均长度和整体质量来看，收集了43位YouTuber的2139个高质量前视驾驶视频。为了确保训练集和验证集之间没有重叠，从中选择了3位YouTuber的所有视频作为验证集，其余视频作为训练集。为了排除非驾驶帧，如视频介绍和订阅提醒，丢弃了每个视频开头和结尾一定长度的片段。然后，使用VLM模型BLIP-2 对每个帧进行语言上下文描述。进一步通过手动检查这些上下文中是否包含特定关键字，来移除不利于训练的黑色帧和过渡帧。数据集构建流程的示意图见图3，下面介绍如何生成这些上下文。

YouTube视频的语言标注。 为了创建一个可以通过自然语言控制以相应地模拟不同未来的预测模型，为了使预测模型可控并提高样本质量，将驾驶视频与有意义且多样化的语言标注配对至关重要。为OpenDV-YouTube构建了两种类型的文本，即自车指令和帧描述，即“指令”和“上下文”，以帮助模型理解自车动作和开放世界的概念。对于指令，在Honda-HDD-Action上训练了一个视频分类器，用于标注4秒序列中的自车行为的14种类型的动作。这些分类指令将进一步映射到预定义字典中的多个自由形式表达。对于上下文，利用一个成熟的视觉语言模型BLIP-2，描述每个帧的主要目标和场景。有关标注的更多细节，请参阅附录。

用公共数据集扩大语言范围。 考虑到BLIP-2标注是为静态帧生成的，没有理解动态驾驶场景，例如交通灯的过渡，我们利用几个提供驾驶场景的语言描述的公共数据集。然而，它们的元数据相对稀疏，只有一些诸如“晴天的道路”之类的词语。使用GPT进一步提升它们的文本质量，形成描述性的“上下文”，并通过对每个视频剪辑的记录轨迹进行分类，生成“指令”。最终，我们将这些数据集与OpenDV-YouTube集成，建立OpenDV-2K数据集，如表1的最后一行所示。

GenAD框架

本节介绍了GenAD模型的训练和设计。如图4所示，GenAD分为两个阶段进行训练，即图像域转移和视频预测预训练。第一阶段将通用的文本到图像模型调整到驾驶领域。第二阶段通过提出的时间推理块和修改的训练方案，将文本到图像模型扩展为视频预测模型。最后，探讨了如何将预测模型扩展到动作条件预测和规划。

图像域迁移

视频预测预训练

在第二阶段，利用连续视频的几帧作为过去的观察，GenAD被训练来推理所有视觉观察，并以可信的方式预测未来的几帧。与第一阶段类似，预测过程也可以由文本条件指导。然而，由于两个基本障碍，预测高度动态的驾驶世界在时间上是具有挑战性的。

因果推理： 为了预测遵循驾驶世界时间因果关系的合理未来，模型需要理解所有其他agents和自车的意图，并了解潜在的交通规则，例如，交通信号灯转换时交通将如何变化。
视图变化剧烈： 与Typical视频生成基准相反，后者主要具有静态背景，中心目标的移动速度较慢，驾驶的视图随时间变化剧烈。每个帧中的每个像素可能会在下一个帧中移动到一个遥远的位置。

本文提出了时间推理block来解决这些问题。如图4(c)所示，每个block由三个连续的注意力层组成，即因果时间注意力层和两个解耦的空间注意力层，分别用于因果推理和模拟驾驶场景中的大的移位。

因果时间注意力。 由于第一阶段训练后的模型只能独立处理每个帧，本文利用时间注意力在不同的视频帧之间交换信息。注意力发生在时间轴上，并模拟每个网格特征的时间依赖性。然而，直接采用双向时间注意力在这里几乎无法获得因果推理的能力，因为预测将不可避免地依赖于随后的帧而不是过去的条件。因此，通过添加因果注意mask，限制注意力方向，鼓励模型充分利用过去的观察知识，并如实推理未来，就像在真实的驾驶中一样。在经验上发现，因果约束极大地使预测的帧与过去的帧保持一致。遵循通用做法，还在时间轴上添加了实现为相对位置嵌入的时间偏差，以区分序列的不同帧，用于时间注意力。

解耦的空间注意力。 由于驾驶视频具有快速的视角变化，在不同的时间步长中，特定网格中的特征可能会有很大的变化，并且很难通过时间注意力进行相关性和学习，因为时间注意力具有有限的感受野。考虑到这一点，引入了空间注意力来在空间轴中传播每个网格特征，以帮助收集用于时间注意力的信息。采用了一种解耦的自注意力变体，由于其具有线性计算复杂度，相对于二次完全自注意力，它更加高效。如图4(c)所示，这两个解耦注意层分别在水平和垂直轴上传播特征。

深度交互。 直觉上，第一阶段中调整的空间block独立地使每个帧的特征朝向照片逼真性，而第二阶段引入的时间block使所有视频帧的特征朝向一致性和一致性对齐。为了进一步增强时空特征交互，本文将提出的时间推理block与SDXL中的原始Transformer block交叉，即空间注意力，交叉注意力和前馈网络，如图4(b)所示。

零初始化。 与先前的做法类似，对于在第二阶段新引入的每个block，将其最终层的所有参数初始化为零。这样可以避免在开始时破坏经过良好训练的图像生成模型的先验知识，并稳定训练过程。

扩展。 依靠在驾驶场景中训练良好的视频预测能力，进一步挖掘了预训练模型在动作控制预测和规划方面的潜力，这对于真实世界的驾驶系统非常重要。在这里，探索了nuScenes上的下游任务，该任务提供了记录的姿态。

动作条件预测。 为了使我们的预测模型能够受到精确的自我行为控制并充当模拟器，使用成对的未来轨迹作为额外条件对模型进行微调。具体来说，使用Fourier embedding将原始轨迹映射到高维特征。经过线性层的进一步投影后，将其添加到原始条件中。因此，自我行为通过图4(b)中的条件交叉注意力层注入到网络中。

规划。 通过学习预测未来，GenAD获得了复杂驾驶场景的强大表示，这可以进一步用于规划。具体来说，通过冻结的GenAD的UNet编码器提取两个历史帧的时空特征，该编码器几乎是整个模型大小的一半，并将它们馈送到多层感知器（MLP）以预测未来的路标。通过冻结的GenAD编码器和可学习的MLP层，规划器的训练过程可以比端到端规划模型UniAD 加快3400倍，验证了GenAD学习的时空特征的有效性。

实验

设置与实验方案

GenAD在OpenDV-2K上分两个阶段学习，但具有不同的学习目标和输入格式。在第一阶段，模型接受（图像，文本）对作为输入，并在文本到图像生成上进行训练。将命令标注广播到包含的所有帧中，每4秒视频序列标注一个。该模型在32个NVIDIA Tesla A100 GPU上进行了300K次迭代训练，总批量大小为256。在第二阶段，GenAD被训练以在过去的潜变量和文本的条件下联合去噪未来的潜变量。其输入为（视频剪辑，文本）对，其中每个视频剪辑为2Hz的4秒。当前版本的GenAD在64个GPU上进行了112.5K次迭代训练，总batch大小为64。输入帧在两个阶段的训练中被调整为256×448的大小，并且以概率p = 0.1丢弃文本条件c，以启用无分类器的引导在采样中，这在扩散模型中通常用于改善样本质量。

视频预训练结果

与最近的视频生成方法的比较

将GenAD与最近的先进方法进行比较，使用OpenDV-YouTube、Waymo 、KITTI和Cityscapes上的未见过的地理围栏集合进行zero-shot生成方式。图5显示了定性结果。图像到视频模型I2VGen-XL和VideoCrafter1不能严格按照给定的帧进行预测，导致预测帧与过去帧之间的一致性较差。在Cityscapes上训练的视频预测模型DMVFN在其预测中遭遇了不利的形状扭曲，尤其是在三个未见过的数据集上。相比之下，尽管这些集合都没有包含在训练中，但GenAD表现出了显著的zero-shot泛化能力和视觉质量。

与nuScenes专家的比较

还将GenAD与最近可用的专门针对nuScenes训练的驾驶视频生成模型进行比较。表2显示，GenAD在图像保真度（FID）和视频连贯性（FVD）方面超过了所有先前的方法。

具体来说，与DrivingDiffusion相比，GenAD将FVD显著降低了44.5%，而没有将3D未来布局作为额外输入。为了公平比较，训练了一个模型变体（GenAD-nus）只在nuScenes数据集上进行训练。我们发现，尽管GenAD-nus在nuScenes上表现与GenAD相当，但它很难推广到未见过的数据集，例如Waymo，其中生成物会退化到nuScenes的视觉模式。相比之下，训练在OpenDV-2K上的GenAD在各个数据集上都表现出很强的泛化能力，如前图5所示。

在nuScenes上提供了语言条件预测样本，如图6所示，GenAD根据不同的文本指令模拟了相同起始点的各种未来。复杂的环境细节和自运动的自然过渡展示了令人印象深刻的生成质量。

消融研究

通过在OpenDV-2K的子集上进行75K步的训练，执行消融实验。从具有普通时间注意力的基线开始，逐渐引入我们提出的组件。值得注意的是，通过将时间块与空间块交错，FVD显著提高了（-17%），这是由于更充分的时空交互。时间因果关系和解耦的空间注意力都有助于更好的CLIP-SIM，改善了未来预测与条件帧之间的时间一致性。需要明确的是，表3中第四行和第三行显示的FID和FVD的轻微增加，并不真实反映了生成质量的下降，如[8, 10, 79]中所讨论的。每种设计的有效性如图7所示。

扩展结果

动作条件预测。 进一步展示了在nuScenes上微调的动作条件模型GenAD-act的性能，如图8和表4所示。给定两个起始帧和一个包含6个未来路径点的轨迹w，GenAD-act模拟了6个按照轨迹顺序的未来帧。为了评估输入轨迹w和预测帧之间的一致性，在nuScenes上建立了一个反向动力学模型（IDM）作为评估器，该模型将视频序列映射到相应的自车轨迹上。我们利用IDM将预测帧转换为轨迹ˆw，并计算w和ˆw之间的L2距离作为动作预测误差。具体来说，与具有文本条件的GenAD相比，GenAD-act将动作预测误差显著降低了20.4%，从而实现更准确的未来模拟。

规划结果。 表5描述了在nuScenes上的规划结果，其中可以获得自车的姿态真值。通过冻结GenAD编码器，并仅优化其顶部的附加MLP，模型可以有效地学习规划。值得注意的是，通过通过GenAD的UNet编码器预提取图像特征，规划适应的整个学习过程仅需在单个NVIDIA Tesla V100设备上花费10分钟，比UniAD规划器的训练高效3400倍。

结论

对GenAD进行了系统级开发研究，这是一个用于自动驾驶的大规模通用视频预测模型。还验证了GenAD学习表示适应驾驶任务的能力，即学习“世界模型”和运动规划。尽管在开放领域获得了改进的泛化能力，但增加的模型容量在训练效率和实时部署方面带来了挑战。设想统一的视频预测任务将成为未来关于表示学习和策略学习的研究的可扩展目标。另一个有趣的方向是将编码的知识提炼出来，用于更广泛的下游任务。

#BEV空间の多模感知算法

目前，自动驾驶技术已经愈发的成熟，很多车企都已经在自家的车辆产品上配备了自动驾驶算法，使车辆具备了感知、决策、自主行驶的能力，下图是一个标准的自动驾驶算法流程图。

图一：标准自动驾驶流程图

通过上面展示出来的标准自动驾驶流程图可以清晰的看出，整个自动驾驶流程包括五个子模块：

场景传感器：采用不同的数据传感器对当前的周围场景进行信息的采集工作，对于自动驾驶车辆来说，常见的数据采集传感器可以包括：相机（Camera），激光雷达（Lidar），毫米波雷达（Radar），超声波传感器（Ultrasonics）等等。
感知和定位：在获得了来自场景传感器采集到各种数据信息之后，会将采集到的相关信息送入到不同的感知和模型当中输出对当前环境的感知和定位结果，这里会涉及到的相关感知算法可以包括：车道线检测感知算法（Lane Detection），目标检测感知算法（Object Detection），语义分割感知算法（Semantic Segmentation），定位和建图算法（SLAM），高精地图算法（HD Maps）等等。
周围环境建模：在得到上一步各种感知模型的预测结果后，目前主流的做法是将各类感知算法输出的预测结果以车辆自身（Ego）为坐标系进行融合，从而构建一个周围环境感知行为的BEV空间预测地图，从而方便下游的规划和控制任务。
规划：在得到上一步输出的当前周围环境的BEV感知结果地图后，自动驾驶车辆上配备的路径规划算法会根据当前的交通规则以及车辆自身位姿设计相关的行驶路径，并根据行驶路径输出一套完整的相关驾驶行为决策。
控制：控制模块也就是整个自动驾驶流程的最后一步，此时的车辆会根据规划模块输出的一整套完成的驾驶行为决策进行判断，从而采取如转向（Steer），汽车加速（Accelerate），汽车减速（Brake）等相关的行为，实现对车辆的控制。

以上就是大致介绍了一下整个自动驾驶流程包括的所有内容，基本说明了一辆自动驾驶汽车从收集数据开始到最终完成驾驶行为的全过程。相信大家也可以看出，如果一辆自动驾驶汽车想要做出准确的决策，周围环境信息数据的采集和感知和定位算法模型的预测结果扮演了整个驾驶流程中至关重要的角色。

那么你接下来，我们先重点介绍一下自动驾驶流程图的第一步：周围环境信息数据的采集模块：

相机传感器是目前自动驾驶中最常用的数据采集传感器之一，因其可以采集到具有丰富语义信息的图像数据，且价格低廉而被广泛采用。一般而言，相机传感器包括：针孔相机或者鱼眼相机。鱼眼相机在一些短范围内的感知具有广泛的应用前景，然而无论是哪种类型的相机传感器，在面对现实世界的驾驶场景当中，都面临着一些非常严峻的问题，相关问题列举如下：

相机传感器在光线较暗的情况下表现较差：因为相机这类图像传感器主要是利用光线照射到物体上进行成像，但是在这种有限的光照条件下，严重的阻碍了成像结果中物体语义表示的质量，从而影响模型最终输出的感知结果，直接影响了后续的规控等任务。
相机会暴露在外部自然场景当中：目前的自动驾驶车辆中，普遍都是采用环视相机的采集方式，同时这类环视相机通常都是安装在自动驾驶车辆的外部，这就会导致环视相机会暴露在沙子，泥土，污垢，灰尘，雨雪或者杂草等环境中，对相机造成影响，从而间接的影响到相机的成像结果，或者外参矩阵，间接的影响后续的感知定位、规划、控制等任务中。
强烈太阳光的干扰：在某些自动驾驶场景当中，可能会存在着天气特别晴朗的情况，这就会导致太阳光线过于充足，太阳的眩光会导致相机传感器的镜头表面被过度的曝光，严重影响了相机传感器采集到的图像质量，阻碍了下游基于视觉的障碍物感知算法的预测效果，进而直接影响到后续的规划、控制模块的决策结果。

通过上述提到的诸多现实问题可以看出，虽然相机传感器不仅价格低廉，而且可以为后续的障碍物感知算法提供丰富的目标语义信息，但是其受环境的影响是非常巨大的，这就表明我们需要在自动驾驶车辆上配备额外传感器的原因。我们发现超声波传感器具有低功耗，对物体的颜色、材料不敏感，还可以比相机传感器更好的抵抗环境中的强烈光线，同时可以进行比较准确的短距离目标检测，对自动驾驶的障碍物感知是具有很要的数据采集价值。

考虑到以上传感器因素，同时为了更好的匹配下游的规控任务，我们在本文中设计了一种端到端的基于CNN卷积神经网络的多模态感知算法，利用鱼眼相机传感器和超声波传感器作为输入，实现在BEV空间的障碍物感知任务。

论文链接：https://browse.arxiv.org/pdf/2402.00637.pdf；

网络模型的整体架构细节梳理

下图是我们提出的算法模型的整体框架图，在介绍本文提出的基于CNN卷积神经网络的多模态感知算法各个子部分的细节之前，我们先整体概括一下整个算法的运行流程。

首先是采用预处理步骤，将超声波传感器采集到的原始回波数据的幅度信息转换为卷积神经网络可以进行处理的2D图像形式的数据。
其次采用CNN卷积神经网络对每个模态传感器采集到的数据完成特征提取过程，并且将提取到的多个模态的特征进行融合，构建出最终的模态无关特征。
然后是将上一步得到的模态无关特征完成空间上的转换过程得到BEV空间下的特征。
最后是将BEV空间特征喂入到语义分割任务的解码器当中，得到像素级别的障碍物预测结果。

图二：基于CNN卷积神经网络的多模态感知算法整体流程图

单一模态特征提取编码器

图三：部分障碍物对应的鱼眼相机和超声波传感器的数据响应可视化结果

BEV空间坐标系的映射过程

因为我们要完成鱼眼相机的2D图像特征向3D的BEV空间特征的变换，我们采用了Kannala-Brandt相机模型来实现这一变换过程。相比于基于图像中心半径的距离来表示径向畸变不同，Kannala-Brandt算法模型将相机畸变看作为通过透镜的光入射角函数，如下图的公式（1）所示。

由于在BEV投影过程中，需要将2D的图像特征投影到3D的BEV空间中，这就需要确保世界坐标空间中特定的网格区域的表示是非常准确的。因此，我们考虑将每个来自特征金字塔的特征图进行裁剪，从而保证2D图像特征对应于现实世界空间中定义的最大边界的精确上下边界。因此为了更好的从特征图中裁剪出相应区域，我们从公式（2,3,4）中确定失真系数。通过使用具有相应焦距、失真参数、主点和世界坐标空间高度和深度的公式（1），我们可以获得表示现实世界空间坐标系的图像空间坐标（u, v），从而就可以确定变换过程中每个网格的最小和最大深度，从而完成特征金字塔不同尺度特征的裁剪过程，最后利用相机的外参矩阵实现将图像特征变换为BEV空间特征。

基于内容感知的膨胀和多模态特征融合

由于本文是多模态的感知算法，需要同时利用图像和超声波的光谱特征，这就会遇到多模态算法中无法避开的一个问题：由于不同传感器采集到的数据代表了不同形式的环境表示。鱼眼相机通过图像像素的方式来捕获当前环境中丰富的语义信息，但是会丢失掉目标的深度以及几何结构信息。超声波传感器通过接收发射信号打到物体后发射回来的回波信号来感知周围的环境。这种不同传感器采集到的数据模态上的差异增加了特征融合过程中的难度。除此之外，在前文也有提到，相机传感器通常会暴露在自动驾驶车辆的外部，这就会造成周围环境会使得传感器发生潜在的错位风险，导致不同传感器采集到的同一个目标可能会在BEV空间中落到不同的网格单元中，从而直接造成融合后的多模态特征出现歧义性的问题，影响最终的感知算法预测结果。

所以，综合考虑到上面提到的多模态特征表示存在的差异，以及还可能出现的传感器错位之间的风险，我们提出了基于内容感知的膨胀和多模态特征融合模块。该模块中的膨胀卷积可以根据卷积核所在特征图的不同位置自适应的调整膨胀率的大小，相应的自适应膨胀卷积的计算公式如下：

以上就是我们提出的基于内容的膨胀卷积，通过该卷积用于调整超声波BEV空间特征。随后，将膨胀后的BEV空间特征与鱼眼相机完成空间转换后的BEV空间特征合并起来，从而实现多模态特征信息的融合，从而实现更准确的障碍物感知任务。

语义占用预测头

在获得了多模态的BEV空间特征后，我们制定了一个双阶段的多尺度语义占用网格预测解码器来得到最终的网格地图占用预测。解码器的具体网络结构如图九所示，该结构有两个顺序级联的残差块组成。第一个残差块用于避免在相同的分辨率内损害目标的空间特征。第二个残差块通过利用上下文特征来学习不同障碍物类型的先验几何形状信息。将多模态的BEV空间特征在多组级联的卷积网络中作用后得到最终的分割结果。

实验结果和评价指标

评价指标

由于我们设计的障碍物感知算法需要涉及到二值分割来区分前景和背景区域的目标，所以我们采用了一下的相关指标来评价我们设计模型的好坏。

召回率指标：该指标可以很好的反映出系统对于障碍物的感知能力，同时该指标也广泛应用于2D、3D检测任务当中，这里就不过多介绍了。
欧几里得距离指标：该指标可以帮助我们评估预测障碍和地面真实障碍在空间位置方面的一致性程度。预测障碍物与实际障碍物之间的距离是关键信息，以确保系统准确地感知障碍物的位置。
绝对距离误差：该指标可以准确的反映出障碍物感知网络模型将障碍物相对于自车作为参考的接近程度。通过了解这种相对距离有助于对象回避、刹车或者在转向的过程中做出实施决策。
归一化距离指标：该指标可以更好的评价模型预测出来的障碍物与自车之间的距离性能好坏。

实验结果（定量指标）

首先，我们比较了提出的多模态障碍物感知算法模型在室内和室外两种环境空间以及不同传感器下的检测性能，具体定量的数据指标如下图所示：

所提出的算法模型在不同场景下的指标汇总

通过实验结果可以看出，在室内场景来看，由于采用了超声波传感器采集到的数据，障碍物感知算法模型在距离指标上有着非常出色的预测优势，同时在召回率方面也要大幅度的超过单模态（纯相机）的算法算法版本。对于室外场景而言，所提出的算法模型得益于多模态数据互补的优势，各个指标均都要大幅度领先于单模态视觉的感知算法版本。

接下来是针对当前的两种不同版本的算法模型在各个不同障碍物类别上的感知结果性能汇总，不同类别具体定量的实验数据汇总在下表当中

通过上表可以看出，对于绝大多数的障碍物目标，当前提出的多模态算法模型在召回率、精度、交并比、距离、归一化距离、欧氏距离等各个指标上均要明显的高于单模态纯图像的算法版本。由此说明，通过多种模态的数据进行信息互补，不仅提高算法模型对于障碍物的检测识别性能，同时还可以更加精确的定位障碍物的的具体位置。

为了进一步的展示我们提出的多模态感知算法模型在距离上的感知优势，我们对不同距离段的感知性能指标进行了统计，具体统计结果如下表所示。

我们将模型5.8米的感知范围分成了四个不同的距离段，通过实验数据可以看出，随着距离的变远，仅仅使用单模态纯视觉的算法版本其召回率，距离性能均是不断下降的，因为随着距离的变远，图像中的目标变得越来越小，模型对于目标的特征提取变得更加困难。但是随着超声波传感器采集的信息加入，可以明显的看出，随着距离的变远，模型的精度并没有明显的降低，实现了不同传感器信息的互补优势。

实验结果（定性指标）

下面是我们多模态算法模型感知结果的可视化效果，如下图所示。

提出的算法模型感知结果的可视化效果

结论

本文首次提出了利用鱼眼相机传感器以及超声波传感器进行BEV空间的障碍物感知算法，通过定量指标（召回率、精度、欧氏距离以及归一化距离等指标）可以证明我们提出算法的优越性，同时上文可视化的感知结果也可以说明我们算法出色的感知性能。

#Think2Drive

首个用于自动驾驶的基于模型的RL方法

题目：Think2Drive: Efficient Reinforcement Learning by Thinking in Latent World Model for Quasi-Realistic Autonomous Driving (in CARLA-v2)

作者单位：上海交通大学

现实世界中的自动驾驶（AD），尤其是城市驾驶，涉及许多corner case。最近发布的AD仿真器CARLA v2在驾驶场景中增加了39个常见事件，并提供了比CARLA v1更接近真实的测试平台。这给社区带来了新的挑战，到目前为止，还没有文献报告CARLA v2中的新场景取得了任何成功，因为现有的工作大多都必须依赖于特定规则进行规划，但它们无法涵盖CARLA v2中更复杂的情况。这项工作主动直接训练一个规划器，希望能够灵活有效地处理corner case，认为这也是AD的未来方向。据我们所知，我们开发了第一个基于模型的强化学习方法，名为Think2Drive，用于AD，具有一个世界模型来学习环境的转变，然后它充当神经仿真器来训练规划器。这种范式极大地提高了训练效率，因为世界模型中的低维状态空间和张量的并行计算。

结果，Think2Drive能够在单个A6000 GPU上进行3天的训练后，在CARLA v2中以专家级的熟练程度运行，据我们所知，迄今为止尚未报告有关CARLA v2的成功（100%的路线完成）。还提出了CornerCase-Repository，这是一个支持通过场景评估驾驶模型的基准。此外，提出了一个新的平衡指标来评估性能，包括路线完成、违规次数和场景密度，以便驾驶分数可以提供更多关于实际驾驶表现的信息。

实验结果

#DriveVLM

在自动驾驶领域，研究人员也在朝着 GPT/Sora 等大模型方向进行探索。清华叉院、理想提出DriveVLM，视觉大语言模型提升自动驾驶能力

在目前自动驾驶领域，传统的感知（perception）-预测（prediction）-规划（planning）的常规端到端自动驾驶在处理常规场景时表现尚可，但在面对复杂场景或者长尾场景时会遇到较大的挑战。论文作者认为主要是因为目前常规模块的设计缺乏“场景理解”能力所导致的，比如感知模块常常只是检测识别常见物体，忽略了长尾物体和物体特性的识别。鉴于近期大视觉语言模型（LVLMs）在视觉理解和推理展现出的强大能力，作者将VLM应用在自动驾驶领域，并设计了一套特殊的CoT推理过程，同时提出了一种与传统自动驾驶系统相结合的方法，提高了精度的同时又能确保实时性的部署。

与生成式 AI 相比，自动驾驶也是近期 AI 最活跃的研究和开发领域之一。要想构建完全的自动驾驶系统，人们面临的主要挑战是 AI 的场景理解，这会涉及到复杂、不可预测的场景，例如恶劣天气、复杂的道路布局和不可预见的人类行为。

现有的自动驾驶系统通常包括 3D 感知、运动预测和规划组成部分。具体来说，3D 感知仅限于检测和跟踪熟悉的物体，忽略了罕见物体及其属性，运动预测和规划则关注物体的轨迹动作，通常会忽略物体和车辆之间的决策级交互。

自动驾驶需要从数据驱动迭代到知识驱动，通过训练具备逻辑推理能力的大模型才能真正解决长尾问题，只有这样才能迈向开放世界的 L4 级能力。随着 GPT4、Sora 等大模型通过涌现、规模效应展现出强大 few-shot/zero-shot 能力，人们正在思考一条新路。

最近清华大学交叉信息研究院、理想汽车提交的新论文中，作者提出了 DriveVLM，受到最近生成式 AI 领域兴起的视觉语言模型（VLM）启发，DriveVLM 在视觉理解和推理方面表现出了非凡的能力。

在业界，这是第一个提出自动驾驶快慢系统的工作，方法充分结合了主流自动驾驶 pipeline 和具备逻辑思考的大模型 pipeline，并第一个完成端测部署的大模型工作（基于 Orin 平台）。

DriveVLM 包含一个 Chain-of-Though (CoT) 流程，该流程具有三个关键模块：场景描述、场景分析和分层规划。场景描述模块用语言描述驾驶环境，并识别场景中的关键对象；场景分析模块深入研究关键对象的特征及其对自我车辆的影响；分层规划模块从元动作和决策描述到路径点逐步制定计划。

这些模块分别对应于传统自动驾驶系统流程的感知 - 预测 - 规划流程三部分组件，不同之处在于它们处理对象感知、意图级预测和任务级规划，这些在过去是非常具有挑战性的。

虽然 VLM 在视觉理解方面表现出色，但它们在空间基础和推理方面存在局限性，而且其算力需求对端侧推理速度提出了挑战。因此，作者进一步提出了 DriveVLMDual，这是一种结合了 DriveVLM 和传统系统优点的混合系统。DriveVLM-Dual 可选择将 DriveVLM 与传统 3D 感知和规划模块（如 3D 物体探测器、占用网络和运动规划器）集成，使系统能够实现 3D 接地和高频规划能力。这种双系统设计类似于人脑的慢速和快速思维过程，可以有效地适应驾驶场景中不同的复杂性。

同时，新研究定义了场景理解和规划（SUP）任务，并提出了新的评估指标来评估 DriveVLM 和 DriveVLM-Dual 的场景分析和元动作规划能力。此外，作者还进行了全面的数据挖掘和注释管道，为 SUP 任务构建内部 SUP-AD 数据集。

经过 nuScenes 数据集和自有数据集上的大量实验，人们证明了 DriveVLM 的优越性，尤其是在少量镜头的情况下。此外，DriveVLM-Dual 超越了最先进的端到端运动规划方法。

论文《DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models》

论文链接：https://arxiv.org/abs/2402.12289

项目连接：https://tsinghua-mars-lab.github.io/DriveVLM/

DriveVLM 的整体流程如图 1 所示：

将连续帧视觉图像进行编码，通过特征对齐模块，与 LMM 进行交互；
从场景描述开始引导 VLM 模型的思考，先引导时间、场景、车道环境等静态场景，再引导影响驾驶决策关键障碍物；
对关键障碍物进行分析，通过传统 3D 检测和 VLM 理解的障碍物进行匹配，进⼀步确认障碍物的有效性并消除幻觉，描述该场景下的关键障碍物的特征和对我们驾驶的影响；
给出关键的「元决策」，如减速、停车、左右转等，在根据元决策给出驾驶策略描述，并最终给出主车未来的驾驶轨迹。

图 1.DriveVLM 和 DriveVLM-Dual 模型管道。一系列图像由大视觉语言模型 (VLM) 处理，以执行特殊的思想链 (CoT) 推理，从而得出驾驶规划结果。大型 VLM 涉及视觉变换器编码器和大语言模型（LLM）。视觉编码器产生图像标记；然后基于注意力的提取器将这些标记与 LLM 对齐；最后，LLM 进行 CoT 推理。CoT 过程可以分为三个模块：场景描述、场景分析和层次规划。

DriveVLM-Dual 是一种混合系统，利用 DriveVLM 对环境的综合理解和决策轨迹的建议，提升了传统自动驾驶 Pipeline 的决策和规划能力。它将 3D 感知结果合并为语言提示，以增强 3D 场景理解能力，并通过实时运动规划器进一步细化轨迹路点。

尽管 VLM 擅长识别长尾物体和理解复杂场景，但它们经常难以精确理解物体的空间位置和详细运动状态，这一不足构成了重大挑战。更糟糕的是，VLM 巨大的模型体量导致高延迟，阻碍了自动驾驶的实时响应能力。为了应对这些挑战，作者提出了 DriveVLM-Dual，让 DriveVLM 和传统自动驾驶系统进行合作。这种新方法涉及两个关键策略：结合 3D 感知进行关键对象分析，给出高维驾驶决策信息，以及高频轨迹细化。

另外，为了充分发挥 DriveVLM 和 DriveVLMDual 在处理复杂和长尾驾驶场景方面的潜力，研究人员正式定义了一项名为场景理解规划的任务，以及一组评估指标。此外，作者提出了一种数据挖掘和注释协议来管理场景理解和规划数据集。

为了充分训练模型，作者全新开发了⼀套 Drive LLM 的标注工具和标注方案，通过自动化挖掘、感知算法预刷、GPT-4 大模型总结和人工标注等多种方式相结合，形成了目前这⼀套高效的标注方案，每⼀个 Clip 数据都包含了多达数十种标注内容。

图 2. SUP-AD 数据集的带注释样本。

作者还提出了一个全面的数据挖掘和注释管道，如图 3 所示，为所提出的任务构建场景理解规划 (SUP-AD，Scene Understanding for Planning in Autonomous Driving) 数据集，包含 100k+ 图像和 1000k+ 图文对。具体来说，作者首先从大型数据库中进行长尾对象挖掘和具有挑战性的场景挖掘来收集样本，然后从每个样本中选择一个关键帧并进一步进行场景注释。

图 3. 用于构建场景理解和规划数据集的数据挖掘和注释管道（上图）。从数据集中随机采样的场景示例（如下）展示了数据集的多样性和复杂性。

SUP-AD 分为训练、验证和测试部分，比例为 7.5 : 1 : 1.5。作者在训练分割上训练模型，并使用新提出的场景描述和元动作指标来评估验证 / 测试分割上的模型性能。

nuScenes 数据集是一个大规模的城市场景驾驶数据集，有 1000 个场景，每个场景持续约 20 秒。关键帧在整个数据集上以 2Hz 的频率均匀注释。在这里，作者采用位移误差（DE）和碰撞率（CR）作为指标来评估模型在验证分割上的性能。

作者展示了 DriveVLM 与几种大型视觉语言模型的性能，并将它们与 GPT-4V 进行比较，如表 1 所示。DriveVLM 利用 Qwen-VL 作为其骨干，其实现了与其他开源 VLM 相比的最佳性能，具有应答和灵活交互的特点。其中前两个大模型已开源，使用了同样的数据进进了微调训练，GPT-4V 使用了复杂的 Prompt 进行 Prompt 工程。

表 1. 在 SUP-AD 数据集上的测试集结果。这里使用了 GPT-4V 的官方 API，对于 Lynx 和 CogVLM，利用训练分割来进行微调。

如表 2 所示，DriveVLM-Dual 与 VAD 配合时，在 nuScenes 规划任务上取得了最先进的性能。这表明新方法虽然是为理解复杂场景而定制的，但在普通场景中也表现出色。请注意，DriveVLM-Dual 比 UniAD 有了显著提升：平均规划位移误差降低了 0.64 米，碰撞率降低了 51%。

表 2. nuScenes 验证数据集的规划结果。DriveVLM-Dual 实现了最佳性能。† 表示使用 Uni-AD 的感知和占用预测结果。‡ 表示与 VAD 合作，所有模型都以自我状态作为输入。

图 4. DriveVLM 的定性结果。橙色曲线代表模型在接下来 3 秒内计划的未来轨迹。

DriveVLM 的定性结果如图 4 所示。在图 4a 中，DriveVLM 准确预测当前场景条件，并结合有关接近我们的骑车人的有思考的规划决策。DriveVLM 还有效地理解了前方交警手势，向自我车辆发出继续前进的信号，并且还考虑了右侧骑三轮车的人，从而做出正确的驾驶决策。这些定性结果证明了 DriveVLM 模型具有理解复杂场景并制定合适驾驶计划的卓越能力。

图 7：SUP-AD 数据集中的各种驾驶场景。

图 9. SUP-AD 数据集中牛群和羊群的示例。一群牛在本车前方缓慢移动，要求策略推理出本车缓慢行驶并与牛保持安全距离。

图 16. DriveVLM 输出的可视化。DriveVLM 可以精确检测倒下的树木及其位置，随后规划合适的绕行轨迹。

DriveVLM的主要贡献

提出了一种将大视觉语言模型用于自动驾驶场景的方法DriveVLM，设计了场景描述、场景分析和层级规划地递进式思维链（CoT），分别对应于传统自动驾驶流程中的感知、规划和控制三个模块，期望借助大视觉语言模型的强大泛化和认知能力，实现比传统模块更优越的性能。

提出了一种大模型与传统自动驾驶模块相结合的方法DriveVLM-Dual，通过有选择性地与传统感知和规划模块进行交互，一方面将匹配的物体感知3D信息引入VLM一侧实现更好地特征分析，另一方面VLM输出的轨迹点可选择地送入传统规划模块，实现实时且更精细地轨迹规划。

提出了一套挖掘复杂和长尾驾驶场景的数据挖掘流程，并以此构建了多样化地SUP-AD数据集。该数据挖掘流程依次包括长尾/挑战性场景挖掘，人工筛选过滤，视频关键帧选取，场景标注，人工检验。

DriveVLM可视化结果

作者提供了几个DriveVLM的可视化场景展示。在图1中，DriveVLM在夜晚识别出前方慢速行驶的车辆，并提供了变道超车的驾驶决策。

在图2中，DriveVLM识别了一个倒塌的树木，并给出了稍微向右偏移的驾驶决策。

在图3中，DriveVLM准确的捕捉出交警示意继续前行的手势，展示了其对于物体行为理解的能力。

详解DriveVLM

图中是DriveVLM的模型pipeline，主要包括场景描述、场景分析、层级规划三个主要模块设计，下面将分别介绍。

一．场景描述

场景描述模块的功能主要分为两部分——环境描述和关键物体识别。其中环境描述主要是对共性的驾驶环境的描述，比如天气和道路状况等；关键物体识别则是为了找出对于当前驾驶决策产生较大影响的关键物体。

环境描述.

环境描述共包括以下四个部分：天气、时间、道路类型、车道线状况。
天气（E_weather）：描述了当前驾驶场景的天气状况，比如晴天或者下雪等。像雨雪或者雾天这种天气状况自然会需要更加谨慎地驾驶策略。
时间（E_time）：描述当前的时间段，比如白天还是夜间场景。像夜间场景由于能见度低也需要采取谨慎地驾驶策略。
道路类型（E_road）：描述当前驾驶所处路段的类型，比如城市、高速、乡村等。不同路段可能存在不同类型的挑战，即需要不同地驾驶风格。
车道线状况（E_lane）：提供了车道线状况的描述，包括自车所处车道和潜在的车道线选择。这些信息对于我们车道的选择和安全变道至关重要。

关键物体识别

区别于传统自动驾驶感知模块将所有待检测物体都检出，DriveVLM借鉴了人类在驾驶时的思考过程，专注于识别当前驾驶场景中最有可能影响自车驾驶决策的物体，称之为关键物体。得益于海量数据的预训练，VLM相比于传统3D目标检测器能够更好的识别出长尾的关键物体，比如路面杂物或者非常见动物等。对于每个关键物体，DriveVLM会分别输出其语义类别c和对应的2D目标框b。

二．场景分析

在传统端到端自动驾驶流水线中，预测（prediction）模块一般只输出物体的未来轨迹，来辅助后续规划模块进行决策。但这种单一的轨迹预测不能全面体现物体对自车驾驶决策的影响，很多物体对自车产生的影响不单单限于其未来潜在轨迹这么简单。得益于大视觉模型的发展，DriveVLM对当前驾驶场景进行更加全面的场景分析。
关键物体分析。在之前得到驾驶场景中的关键物体后，DriveVLM对关键物体特征和其对自车潜在的驾驶影响进行分析。在这里，作者将物体特征分为3个方面——静态属性（Cs）、运动状态（Cm）和特殊行为（Cp）。静态属性描述了物体固有的属性，比如道路标志中的标号或者标语，超出卡车车身长度的货物等，这些属性有助于自车确定一些潜在驾驶风险或对应的。
运动状态（Cm），包括位置、方向和动作等，描述物体在一段时间内的运动状态，与传统轨迹预测模块类似。特殊行为（Cp）则是指某些专属于该物体做出的可能影响自车驾驶的特定行为或者手势等，比如交警指挥交通的手势，面前的人在使劲挥手示意等。在实际应用中，作者并没有强制DriveVLM对于所有关键物体都输出这三方面的信息，而是使模型学会应该自适应地输出某个物体在这三方面中可能包含的方面。

场景总结

在分析完所有关键物体后，DriveVLM会对当前驾驶场景进行一个总结，除去汇集之前的分析信息之外，还有一些场景级别的额外的场景级别的分析会在这里完成。之后，所有信息会作为上下文进行后续的分层级规划。

层级规划

DriveVLM提出了一种逐渐递进地层级式规划，依次推理对应自车未来驾驶决策的元动作、决策描述、轨迹点三种规划目标。
元动作：每个“元动作”对应驾驶决策的一个基本粒度的动作，一系列元动作的序列可以一定程度上描述未来短时间内的驾驶决策。作者将元动作的类型归为了17种，比如加速、等待、向左\右变道等。可以按照其特点归为速度控制类、转向类、车道线控制类这三大类别。

决策描述：相对于简单动作粒度级别的“元动作”，“决策描述”包含了对于驾驶决策更加详细多维地描述。一个完整的“决策描述“一般包含三个基本元素：动作A，主体S，以及持续时间D。动作类似之前的元动作，比如“加速”，”转弯”，“等待”等。主体指的是自车动作所施加的物体，例如行人、交通信号或特定的车道等。持续时间表示动作的执行时间，比如动作应该持续多久或何时开始等。
文中提供了一个对应“决策描述”示例的分析：等待（A）行人（S）通过街道，然后（D）开始加速（A），并且汇入右侧车道（S）。这种结构化的决策描述有助于VLM输出规范且易于的驾驶指令。
轨迹点: 输出较为详细的轨迹描述后，DriveVLM接下来输出相应的轨迹点预测，记为W = {w1, w2, ..., wn}, wi = (xi , yi)，代表未来固定时间间隔t时刻的位置。通过这种分层级设计，引导DriveVLM一步步地输出由易到难地决策规划，最后对应的轨迹点可以送入专门的规控模块进行进一步的改善和细化。

DriveVLM-Dual

尽管现有的大视觉语言模型在识别长尾物体和理解复杂场景方面表现优越，但根据现有研究和作者的初步实验表明，VLM有时在涉及到推理物体的细微运动状态改变时表现不佳。另外，由于大语言模型巨大的参数量，导致模型的推理时间相比传统自动驾驶系统往往具有较高的延迟，阻碍了其对环境的快速实时反应。为此，作者提出了DriveVLM-Dual，一种VLM与传统自动驾驶系统互相协作的解决方案。该方法包含两个关键性设计，一是在3D感知信息融合，二是高频轨迹细化操作。

3D感知信息融合

对于匹配的关键物体，将其在感知模块中预测得到的历史轨迹、朝向、中心点坐标等作为语言prompt送入VLM中的关键物体分析模块，用来辅助物体特征的推理。对于没有匹配的关键物体，比如一些传统3D感知模块难以识别的长尾物体，也依旧进行关键物体分析，只不过不使用的3D感知信息作为辅助。通过这种设计，能使得DriveVLM更加准确的理解关键物体的空间位置和细粒度的运动状态变化等。

高频轨迹优化

与传统规划器相比，由于DriveVLM具有视觉语言模型（VLMs）固有的巨大参数量，在生成轨迹时速度显著较慢。为了实现快速实时的推理能力，作者将它与传统的planner相结合形成了一个快-慢双系统设计。

在DriveVLM输出一个规划轨迹Wslow之后，将其作为一个参考轨迹送入经典的规划模块进行一个二阶段的轨迹优化。具体来说，对于基于优化的planner，Wslow作为优化求解器的初始解；对于基于神经网络的planner，Wslow作为输入query的形式，与原本planner的输入特征f相结合，经过网络生成新的轨迹Wfast。在实际应用时，该双系统是异步运行的，VLM分支主要负责task-level的规划，传统分支中的planner主要负责motion-level的规划，只在固定重叠时间接受来自VLM分支的轨迹输入。

任务与数据集

SUP任务

为了更好地衡量大语言模型在处理复杂和长尾驾驶场景中的能力，作者定义了名为SUP（scene understanding for planning）的任务和相应的评估指标。
输入数据包括来自周围摄像头的多视角视频集V，以及可选的来自感知模块的3D感知结果P，输出包括场景描述E，场景分析S，元动作A，决策描述D，轨迹点W。对于轨迹点W可以采用位移误差（DE）和碰撞率（CR）作为指标来评估生成的好坏，但对于文本内容的场景描述和分析，以及元动作序列的好坏并没有已有的评估方法，于是作者分别提出了使用LLM和动态规划的评估方法，详细可参见附录。

数据集构建

针对之前定义的SUP任务，作者提出了一种数据挖掘和标注的方法。并以此为基础构建了一个超过40个场景类别的自动驾驶数据集SUP-AD。该方法流程图如下所示，首先从海量自动驾驶数据中进行长尾目标挖掘和挑战性场景挖掘来收集样本数据，之后对于每个场景选择一个关键帧，并进行相应的场景信息标注。

长尾目标挖掘。作者首先预定义了一系列长尾目标类别，比如异形车辆、道路杂物和横穿马路的动物等。接下来，作者使用基于CLIP的搜索引擎从海量自动驾驶数据中挖掘这些长尾场景，该搜索引擎能够使用语言 query 从大量的自动驾驶视频数据中挖掘与类别相关的驾驶数据。在此之后进行人工检查，以筛选出与指定类别不一致的场景。
挑战性场景挖掘。除了长尾物体外，作者同样对具有挑战性的驾驶场景进行了挖掘。在这些场景的数据中，需要根据不断变化的驾驶条件调整自车（ego vehicle）的驾驶策略。这些场景一般是根据记录的驾驶操作变化得到的，例如急刹车等。在得到相应数据后，同样会进行人工筛选来过滤出不满足要求的数据。
关键帧选择。每个挖掘出来的驾驶场景都是一个十几秒视频片段，在这么长的时间跨度中，选取“关键帧”至关重要。在大多数具有挑战性的场景中，关键帧是在需要显著改变速度或方向之前的时刻。根据综合测试，作者选择在实际操作前0.5秒到1秒作为关键帧，以确保改变驾驶决策的最佳反应时间。对于不涉及驾驶行为变化的场景，作者选择与当前驾驶情景相关的帧作为关键帧。
场景标注。对于选取好关键帧后的数据，由一组标注员进行场景标注，包括任务提到的场景描述、场景分析和规划等内容信息。同时为了便于场景标注，作者开发了一个视频标注工具，能够比较方便的针对特定标注内容进行对应的标注和检查。最终某个场景关键帧的标注结果如下图所示

实验部分

Main Results

作者在提出的SUP-AD和nuScenes数据集上进行了相应的实验来验证DriveVLM的有效性。其中SUP-AD按照 7.5:1:1.5的比例来划分训练、验证和测试集，按照上文提出的两种评价指标进行了评测。在nuScenes数据集上，作者遵循之前的工作，采用位移误差（DE）和碰撞率（CR）作为指标来评估模型在验证集上生成轨迹的性能。

其中在SUP-AD数据集上，作者展示了DriveVLM与几种大型视觉-语言模型在之前的性能比较，并与GPT-4V进行了对比，如表1所示。

DriveVLM采用Qwen-VL作为其基座模型，由于其本身强大的模型性能，相较于其他开源VLMs，如Lynx和CogVLM取得了最佳性能。尽管GPT-4V在视觉和语言处理方面表现出强大的能力，但无法对其进行微调，只能以in-context learning的方式来进行测试。作者提到这样通常会导致在场景描述任务中生成无关信息，按照所提的评估方法，这些额外信息经常被分类为幻觉信息，导致得分不高。

在nuScenes数据集上，作者将DriveVLM和DriveVLM-Dual与之前的经典方法进行了对比，如表2所示。当与VAD进行协同时，DriveVLM-Dual在规划任务的L2和CR指标下都取得了最先进的性能。虽然DriveVLM是为了理解复杂场景所设计的，但在nuScenes这种普通场景上也同样表现出色。

Ablation Study

模型设计。为了验证每部分模块设计的必要性，作者在nuScenes数据集上对不同模块组合进行了消融实验，如表3所示。其中“Base”表示只进行层级规划，而不采用所提出的特殊的CoT推理设置；“CO”表示引入关键物体分析；“3D”表示引入匹配的3D感知结果作为额外的语言prompt。

可以看出，包含关键物体分析这一设计使得DriveVLM提高了决策的准确性，从而实现更安全的导航。而引入3D感知结果后，DrvieVLM生成的轨迹在L2和CR上都会有比较明显的下降，表明引入3D感知结果对于捕捉运动动态并改善轨迹预测至关重要。

推理速度。另外，作者还在NVIDIA Orin平台上测试了DriveVLM和DrvieVLM-Dual的推理速度，

由于 LLM 的参数量巨大，DriveVLM 的推理速度比类似于 VAD 的传统自动驾驶方法慢一个数量级，使得其很难在对实时性要求较高的车载环境中进行部署。然而，在与传统自动驾驶 Pipeline 以异步的快-慢速协作模式配合后，整体延迟取决于快速分支的速度，使得 DriveVLM-Dual 成为了现实世界部署的理想解决方案。

#MapQR

在自动驾驶领域，高精地图在定位和规划中扮演着至关重要的角色。最近，一些方法在类似DETR的框架中促进了端到端在线地图构建。然而，探索查询机制的潜在能力却鲜有人关注。本文介绍了 MapQR，这是一种端到端的方法，强调增强查询能力以构建在线矢量化地图。尽管地图构建本质上是一个点集预测任务，但 MapQR 使用实例查询而不是点查询。这些实例查询被分散(scattered)用于点集的预测，随后被聚集(gathered)用于最终的匹配。这种查询设计，称为 scatter-and-gather query ，共享同一地图元素中的内容信息，并避免了点查询中内容信息可能的不一致性。本文进一步利用先验信息来通过添加从参考点嵌入的位置信息来增强实例查询。结合一个简单而有效的BEV编码器的改进，所提出的 MapQR 在 nuScenes 和 Argoverse 2 上都实现了最佳的平均精度（mAP）并保持了良好的效率。此外，将本文的查询设计集成到其他模型中可以显著提升它们的性能。

代码链接：https://github.com/HXMap/MapQR

总结来说，MapQR主要贡献如下：

本文提出了一种基于新颖的 scatter-and-gather query的在线端到端地图构建方法。这种查询设计，结合了兼容的位置嵌入，对于在类DETR架构中基于点集的实例检测是有益的；
所提出的在线地图构建方法在现有在线地图构建基准测试上的表现优于先前的技术；
将本文的核心设计融入到其他最先进的在线地图构建方法中，也带来了显著的准确性提升。

相关工作回顾

在线矢量化高精地图构建

高清地图旨在输出自动驾驶地图元素的精确矢量化表示。尽管传统的离线SLAM方法维护成本高，但在线高清地图的构建越来越受到关注。在线地图构建可以通过BEV空间中的分割或车道检测来解决，从而生成光栅化地图。HDMapNet进一步将分割结果分组为矢量化表示。

VectorMapNet提出了第一个端到端矢量化地图学习框架，并利用自回归对点进行顺序预测。后来，用于矢量化高清地图构建的端到端方法变得流行起来。MapTR将在线地图构建视为点集预测问题，并设计了一个类似DETR的框架，实现了最先进的性能。其改进版本MapTRv2设计了解耦的自注意解码器和辅助损耗，进一步提高了性能。BeMapNet不使用点集来表示地图元素，而是使用分段Bezier曲线，PivotNet使用基于枢轴的点来进行更精细的建模。最近，StreamMapNet利用多点注意力实现宽感知范围，并利用长序列时间融合。与之前的工作不同，我们提供了对基于实例的查询的深入开发，并设计了scatter-and-gather查询，以准确地探测内容和位置信息。

环视Camera-to-BEV转换

高清地图通常是在BEV视图下构建的，因此在线高清地图构建方法依赖于将摄像机视角的视觉特征转换为BEV空间。LSS利用潜在深度分布将2D图像特征提升到3D空间，并在稍后使用池化来聚合到BEV特征。BEVformer依赖于transformer架构，并基于视觉投影设计空间交叉注意力。与BEVformer中使用的可变形注意力不同，GKT设计了一个几何引导的内核Transformer。此外，还对时间信息进行了探索，以更好地学习BEV特征。所有这些方法都可以有效地产生BEV特征，并且我们提出的解码器与所有这些方法兼容。

Detection Transformers

DETR构建了第一个带有Transformer的端到端对象检测器，消除了对许多手工设计组件的需求。在对象检测任务中，它将对象框表示为一组查询，并直接使用Transformer编码器-解码器架构将查询与图像交互，以预测边界框集。随后的工作进一步优化了这种范式和性能。在可变形DETR中，引入了多尺度特征，以解决普通DETR对小物体检测结果较差的问题。在Conditional DETR和DAB-DETR中，通过向可学习查询添加位置嵌入来加速DETR的收敛。在DN-DETR和DINO中，将带有噪声的实际盒子输入到解码器中，从而建立更稳定的配对关系以加速收敛。DETR的范式已被广泛应用于对象检测任务以外的领域。例如，在线矢量化高清地图构建通常采用类似DETR的模型。我们的模型也是一个类似DETR的模型。利用地图元素的点集表示，我们设计了可以在Transformer解码器中分散和聚集的查询，并将位置信息集成到查询的初始化中。

详解MapQR

整体架构

我们方法的模型以环视图像序列为输入，端到端地构建HD地图，目的是生成预测点集来表示地图元素的实例。地图元素的每个实例包括类标签和一组预测点。每个预测点都包括明确的位置信息，以创建表示实例的形状和位置的多段线。我们的模型的总体架构如图2所示，在结构上与其他端到端模型相似。

将环视图像作为输入，我们首先通过共享的2D主干提取图像特征。相机的透视图（PV）的这些图像特征通过馈送到视图转换模块（通常称为BEV编码器）中而被转换为BEV表示。所得到的BEV特征表示为Fbev。

Decoder with Scatter-and-Gather Query

该架构的解码器是我们的核心设计，由堆叠的transformer层组成，其细节如图3所示。我们的解码器的改进主要围绕着查询设计，包括Scatter-and-Gather Query及其兼容的位置嵌入。

Scatter-and-Gather Query。在我们的方法中，我们建议只使用一种查询类型，即实例查询，作为解码器的输入。我们定义了一组实例查询，每个地图元素（索引为i）对应于一个实例查询q。N表示实例查询的数量，配置为超过场景中呈现的地图元素的典型数量。算子scatter获取输入数据向量，并将其复制到多个副本中。公式化为：

经过转换器层后，使用聚集操作符将分散的查询聚合为单个实例查询，该操作符由MLP组成，如下所示：

一个完整的解码器层由一个自注意力（SA）模块和一个交叉注意（CA）模块组成。在每个解码器层中，自注意用于在实例查询之间交换信息。自关注的输出分散成多个副本，即分散查询，并用作交叉关注的输入。利用BEV特征计算注意力得分，以取样来自BEV空间的信息。

与MapTR系列相比，所提出的解码器的详细架构如图3所示。MapTR使用点查询作为解码器层的输入，并计算它们之间的自注意力分数。这使得自注意力的计算复杂度比我们的模型高得多，因为涉及的查询要多得多。

相比之下，所提出的查询设计可以确保同一地图元素中内容的一致性。同时，这种设计减少了查询次数，以减少自关注的计算消耗。因此，它允许参与更多的实例查询，而不会显著增加内存消耗。详细的实验结果见表4。

位置嵌入。如图3所示，我们模型的解码器与其他SOTA模型之间的另一个关键区别是位置嵌入的使用。如DAB-DETR所示，查询由内容部分和位置部分组成。通过设计实例查询的分散和聚集方案，同一地图元素对应的分散查询可以共享内容信息。那么另一个值得探索的方面应该是位置信息。在Conditional DETR和DAB-DETR中，位置部分是根据参考点或框坐标显式编码的，因此它不与内容部分耦合，并有助于分别对两个部分进行学习过程。

考虑到地图构建任务的点集表示，我们提出了一种更合适的位置嵌入方式，如图3所示。在解码器层中，每个实例查询经过自关注模块后被分散为n个分散的查询。每个分散的查询从其参考点添加不同的位置嵌入。位置嵌入分散查询是通过以下方式生成的：

我们以与DAB-DETR相同的方式重载PE运算符来计算位置编码：

我们还尝试在自注意力模块之前将位置嵌入添加到实例查询中，例如使用可学习查询或从覆盖参考点集的最小绑定框进行编码。然而，它没有取得积极成果，这些成果已列入补充材料。因此，在我们的模型中排除了实例查询的位置嵌入。

总之，scatter-and-collection查询机制中第i个实例查询的计算为：

BEV Encoder: GKT with Flexible Height

BEV编码器学习隐式或显式地适应3D空间。例如，BEVFormer为每个BEV查询从固定高度采样3D参考点，同时从投影的2D位置学习可适应的偏移。与BEVFormer类似，GKT使用固定的内核来提取投影的2D图像位置周围的特征。由于GKT依赖于固定的三维变换，因此缺乏一定的灵活性。尽管如此，与BEVFormer相比，它仍具有显著的性能。

为了进一步增加GKT的灵活性，我们在为每个BEV查询生成3D参考点时预测到原始固定高度的自适应高度偏移：

在投影到2D图像之后，我们仍然使用固定的kernel来提取特征。我们发现这种简单的修改可以进一步提高预测结果。它甚至优于在MapTRv2中使用辅助深度损失的BEVPoolv2。实验证明了它在烧蚀研究中的优越性。我们将这种改进的GKT表示为GKT-h，其中后缀“h”表示高度。

匹配损失和训练损失

匹配损失和mapTR保持一致，训练损失与MapTRv2保持一致。

由于所提出的方法主要使用一种新颖的查询设计，我们将所提出的方式（分散和聚集查询+位置嵌入+GKT-h）称为MapQR。这里的QR是查询的缩写。有时我们还想强调核心贡献的大小，即具有位置嵌入的分散和聚集查询。该部分简称为SGQ。

nuScenes效果。在之前的实验设置之后，通过不同的方法预测2D矢量化地图元素。实验结果如表1所示。可以看出，在相同的设置（即主干和训练时期）下，所提出的MapQR在mAP1和mAP2方面都以很大的优势优于所有其他SOTA方法。与MapTR和MapTRv2相比，BeMapNet和PivotNet由于其精细的建模，在较小的阈值（即mAP1）下获得了更好的结果。尽管如此，所提出的方法在不需要对地图元素进行精细建模的情况下可以优于所有这些方法。这意味着我们的实例查询和改进的编码器有利于更准确的预测。我们的方法的推理速度约为18FPS，满足了许多场景的效率要求。

为了验证所提出的SGQ解码器的有效性，它被集成到MapTR和MapTRv2中，并且除了解码器之外的所有其他设置都保持不变。相应的方法分别表示为MapTR+SGQ和MapTRv2+SGQ。它们的性能和相对改进也列在表1中。对于MapTR+SGQ，当使用ResNet50训练24个时期时，我们的解码器有助于提高两个阈值的7.0%mAP以上。在其他设置下，SGQ解码器也可以显著增强MapTR。虽然MapTRv2在解码器中使用解耦的自注意和一些辅助监督来改善结果，但简单地用我们的解码器替换它们的解码器仍然可以更进一步，特别是对于在更严格阈值下的评估。对于推理速度，与原始的MapTR或MapTRv2相比，引入我们的解码器只会稍微慢一点。

一些定性结果如图4所示。在第一行中，比较方法对于前向感测具有可接受的结果，而只有所提出的方法对于环视感知获得了令人满意的结果。第二行展示了一个复杂的交叉场景。我们的方法比比较方法获得了更令人满意的结果。更多的结果可以在补充材料中找到。

Argoverse 2的结果。在表2中，我们提供了Argoverse 2的实验结果。这些测试都是以ResNet50为骨干训练的6个时期。由于Argoverse 2提供3D矢量化地图元素作为地面实况，因此可以像MapTRv2中那样直接预测3D地图元素（dim＝3）。对于2D和3D预测，所提出的MapQR都实现了最佳性能，尤其是对于更严格的阈值（mAP1）。补充材料中包含了更详细的实验结果。

消融实验

结论

在本文中，我们探索了在在线地图构建任务中获得更好性能的查询机制。受类DETR体系结构前沿研究的启发，我们为解码器设计了一种新颖的分散和聚集查询。因此，在交叉关注中，针对同一实例的每个点查询共享具有不同位置信息的相同内容信息，这些位置信息嵌入于不同的参考点。我们证明了SOTA方法的性能可以通过将它们与我们的解编码器相结合来进一步提高。随着我们对BEV编码器的改进，我们的新框架MapQR也在nuScenes和Argoverse 2中获得了最佳结果。

#HIMap

端到端矢量化HD地图构建

矢量化高清（HD）地图构建需要预测地图元素的类别和点坐标（例如道路边界、车道分隔带、人行横道等）。现有技术的方法主要基于点级表示学习，用于回归精确的点坐标。然而，这种pipeline在获得element-level信息和处理element-level故障方面具有局限性，例如错误的element 形状或element之间的纠缠。为了解决上述问题，本文提出了一个简单而有效的HybrId框架，命名为HIMap，以充分学习和交互点级和element级信息。

具体来说，引入了一种称为HIQuery的混合表示来表示所有地图元素，并提出了一种点element交互器来交互式地提取元素的混合信息，如点位置和element形状，并将其编码到HIQuery中。此外，还提出了点-element一致性约束，以增强点级和element级信息之间的一致性。最后，集成HIQuery的输出点元素可以直接转换为地图元素的类、点坐标和掩码。在nuScenes和Argoverse2数据集上进行了广泛的实验，结果显示始终优于以前的方法。值得注意的是，在nuScenes数据集上方法实现了77.8mAP ，显著优于以前的SOTA至少8.3 mAP！

总结来说，本文的主要贡献如下：

我们提出了一种混合表示（即HIQuery）来表示HD地图中的所有元素，并提出了一个简单而有效的用于端到端矢量化HD地图构建的hybrid框架（即HIMap）；
为了同时预测准确的点坐标和元素形状，我们引入了点-元素交互器来提取点级别和元素级别的信息并进行交互；
我们的方法在nuScenes和Argoverse2数据集上显著优于以前的工作，分别获得了77.8和72.7 mAP的最新结果。

论文名称：HIMap: HybrId Representation Learning for End-to-end Vectorized HD Map Construction

论文链接：https://arxiv.org/pdf/2403.08639.pdf

HIMap首先引入一种称为HIQuery的混合表示来表示地图中的所有地图元素。它是一组可学习的参数，可以通过与BEV特征交互来迭代更新和细化。然后，设计了一个多层混合解码器，将地图元素的混合信息（如点位置、元素形状）编码到HIQuery中，并进行点元素交互，见图2。混合解码器的每一层包括点元素交互器、自关注和FFN。在点元交互器内部，执行了一个相互交互机制，以实现点级和元素级信息的交换，避免单级信息的学习偏差。最终，集成HIQuery的输出点元素可以直接转换为元素的点坐标、类和掩码。此外，还提出了点-元素一致性约束，以加强点级和元素级信息之间的一致性。

高精地图构建。鸟瞰图（BEV）空间中的高精地图构建基于机载传感器观测生成地图，例如来自多视图相机的RGB图像和来自激光雷达的点云。现有的方法可分为两类：光栅化高精地图估计和矢量化高精地图构建。栅格化HD图估计被公式化为BEV空间中的语义分割任务。预测每个像素的语义类别。然而，由于缺乏实例级别的区别和地图元素的结构信息，光栅化的HD地图不是下游任务的理想表示。矢量化高精地图构建通过用一组地图元素表示地图来解决上述限制。每个映射元素通常由离散点的有序序列表示。在本文中，我们专注于矢量化高精地图的构建任务，并讨论如何利用点级和元素级信息来生成准确的矢量化元素。

矢量化高精地图构建。为了生成矢量化的高精地图，早期的工作提出了一种具有手工后处理的多任务框架。然而，启发式后处理可能会积累来自不同分支的错误，并限制模型的泛化能力。为了解决上述问题，后续的工作试图构建一个基于点级表示的端到端框架。VectorMapNet探索了关键点表示和从粗到细的两阶段网络。MapTR系列提出了点集和类似DETR的一阶段网络的置换等效建模。InsightMapper证明了利用内部实例点信息的有效性。最近的一些工作试图学习元素级别的信息。MapVR引入了可微分光栅化，并增加了元素级分割监督。BeMapNet首先检测地图元素，然后使用分段Bezier头对详细点进行回归。PivotNet设计了点到线掩码模块，将点级表示转换为元素级表示。然而，这些方法缺乏点和元素之间的信息交互。在本文中，我们提出了一种混合表示学习管道，以同时表示、学习和交互地图元素的点级和元素级信息。

车道线检测。车道检测的目的是预测道路上的可见车道，因此可以将其视为高精地图构建的一个子任务。许多现有的工作集中于单个透视图图像中的2D车道检测。传统的方法采用手工制作的特征和后处理技术来预测车道。随后的工作用深度网络取代了手工制作的特征检测器。探索并提出了基于不同车道表示（如点序列或参数曲线）的车道分割流水线和车道检测方法。最近的一些工作扩展到3D车道检测，并探索了多模态输入。相比之下，矢量化高精地图构建考虑了更多的地图元素类别，并输出了ego汽车整个周边区域的结果。

HIMap框架一览

HIMap的总体pipeline如图3（a）所示。输入 HIMap与各种机载传感器数据兼容，例如来自多视图相机的RGB图像、来自激光雷达的点云或多模态数据。这里我们以多视图RGB图像为例来说明HIMap。

BEV特征提取器：使用BEV特征提取器从多视图RGB图像中提取BEV特征。它包括从每个透视图中提取多尺度2D特征的主干，将多尺度特征细化并融合为单尺度特征的FPN，以及将2D特征映射为BEV特征的2D到BEV特征转换模块。

HIQuery：为了充分学习地图元素的点级和元素级信息，引入HIQuery来表示地图中的所有元素！

混合解码器：混合解码器通过将HIQuery Qh与BEV特征X迭代交互来产生集成的HIQuery。

点元素交互器的目标是交互式地提取地图元素的点级和元素级信息并将其编码到HIQuery中。两个层次的信息相互作用的动机来自于它们的互补性。点级信息包含局部位置知识，而元素级信息提供整体形状和语义知识。因此，该交互使得能够对地图元素的局部信息和整体信息进行相互细化。

考虑到点级表示和元素级表示之间的原始差异，它们分别关注局部信息和整体信息，两级表示的学习也可能相互干扰。这将增加信息交互的难度，降低信息交互的有效性。因此，引入了点元素一致性约束，以增强每个点级别和元素级别信息之间的一致性，元素的可分辨性也可以得到加强！

框架概述

HIMap的整体框架如图3（a）所示。

输入：HIMap与各种车载传感器数据兼容，例如来自多视图相机的RGB图像、来自激光雷达的点云或多模态数据。这里我们以多视图RGB图像为例来说明HIMap。

BEV特征提取器：我们使用BEV特征提取器从多视图RGB图像中提取BEV特征。它包括一个从每个透视图中提取多尺度二维特征的主干，一个将多尺度特征细化并融合为单尺度特征的FPN，以及一个将二维特征映射为纯电动汽车特征的二维到纯电动汽车的特征转换模块。BEV特征可以表示为X。

HIQuery：为了充分学习地图元素的点级和元素级信息，我们引入HIQuery来表示地图中的所有元素。HIQuery是一组可学习的参数。

Hybrid Decoder：Hybrid Decoder通过将HIQuery与BEV特征X迭代交互来产生点元素集成的HIQuery。它包含多个层，每个层包括点元素交互器、自注意力、前馈网络（FFN）和多个预测头。

Point-element Interactor

如图3（b）所示，点元素交互器由点特征提取器、元素特征提取器和点元素杂交器组成。我们首先将查询分解为点查询和元素查询，然后，我们利用点和元素特征提取器从BEV特征中提取相关特征，并利用点-元素杂交器进行交互并将信息编码到HIQuery中。在这个过程中，通过在应用两个特征提取器时共享位置嵌入，并利用集成信息更新点元素混合器内的两个查询级别，实现了相互交互机制。

点特征提取器。要提取点级特征，如何采样并使锚点靠近元素是非常重要的。受可变形注意力和DAB DETR的启发，我们将锚点建模为一组可学习的2D点，并关注锚点周围的一小组关键采样点。第一层的锚点以[0,1]范围内的均匀分布随机初始化，迭代更新，并逐层前向。

元素特征提取器。我们使用基于Masked注意力的元素特征提取器来提取元素级特征。为了利用和增强点和元素之间的对应关系，点查询的位置嵌入与元素查询共享。

Point-element Hybrider。Point-element Hybrider.旨在交互并将点级和元素级信息编码到HIQuery中。它包括两个步骤，单级特征细化和跨级查询更新。

Point-element Consistency

考虑到点级表示和元素级表示之间的原始差异，它们分别关注局部信息和整体信息，两级表示的学习也可能相互干扰。这将增加信息交互的难度，降低信息交互的有效性。因此，我们引入点-元素一致性约束来增强每个元素的点级和元素级信息之间的一致性。作为副产品，元素的可区分性也可以得到加强。

给定第l层中的点查询和元素查询，我们首先通过分别在point head和mask head中应用线性层来获得中间点级表示和元素级表示。然后，我们生成伪元素级表示作为点级表示的加权和，并将元素级相似性计算为：

通过促进伪元素级表示和实际元素级表示之间的高度相似性，增强了点级信息和元素级信息之间的一致性。

实验结果对比

论文在NuScenes Dataset和Argoverse2 Dataset上进行了实验！

nuScenes效果。表1显示了将多视图RGB图像作为输入的nuScenes数据集上的结果的比较。我们的HIMap在简单和硬设置下都达到了最先进的性能（73.7,51.6mAP）。具体而言，在简单设置下，HIMap比之前的SOTA MapTRv2高5.0毫安。这验证了我们的混合表示在捕捉比点级表示更全面的元素信息方面的有效性。HIMap还将BeMapNet（之前的硬设置下的SOTA）提高了4.5 mAP。这证明了点元交互优于顺序利用两个级别的信息。此外，表3给出了多模态输入（多视图RGB图像和激光雷达点云）的结果。HIMap还实现了新的SOTA性能，24个时期为74.3 mAP，110个时期为77.8 mAP，分别超过先前的方法至少5.3和8.3 mAP。

在nuScenes val-set上的SOTA模型进行比较：

和Argoverse2 val set上的SOTA模型比较：

Argoverse2上的结果。如表2所示，在Argoverse2数据集上，无论是在6个或24个时期的训练中，HIMap在简单和困难的设置下都始终超过以前的SOTA。在24个历元调度器的情况下，我们的方法在硬设置和简单设置下分别比MapTRv2高出3.5,2.2mAP。此外，我们观察到，我们的除法器类的结果在简单设置下低于MapTRv2，但在硬设置下更高。我们推测，对于严格的阈值（即0.2米），我们的HIMap会产生更多的TP。此外，在表4中，我们展示了在不同阈值下与MapTRv2的去尾结果比较。我们的HIMap确实为更严格的阈值（例如0.2、0.5米）带来了更大的改进。

与nuScenes验证集多模态数据下SOTA模型比较：

更多消融实验：

消融实验

在这一部分中，我们对HIQuery进行了分析，并从几个方面进行了研究，以说明所提出方法的有效性。除非另有规定，否则在以多视图RGB图像为输入的nuScenes val集上以ResNet50为主干进行实验，训练110个时期，并在简单设置下进行评估。

HIQuery学到了什么？为了更好地理解HIQuery学到了什么以及点-元素交互的效果，我们在图4中可视化了不同层的单个地图元素的锚点的注意力图及其采样点和锚点掩码。我们可以观察到，与HIQuery内部的点查询和元素查询相对应的锚点和掩码分别关注元素的局部信息和整体信息。在分隔器示例中，第二层的锚点和遮罩延伸穿过目标分隔器和附近的边界。在第4层，它们都集中在目标分割器上，但锚点的方向仍然向左倾斜，并且锚点掩码的长度并不完美。在第6层，锚点和遮罩更适合目标分隔符。在人行横道示例中，在第二层，锚点向右漂移，并且锚点掩码包括目标人行横道外的额外像素。经过迭代学习和交互，锚点和遮罩都被转移到人行横道上。这些可视化验证了点元素交互有助于实现相互细化。

HIMap。在表5中，我们逐步研究了HIMap的几个关键设计，包括混合表示、点元素交互器和点元素一致性。我们首先通过调整MapTR的配置来构建点级表示学习基线，例如FPN、2D到BEV转换模块等。如表5的第一行所示，它实现了68.5mAP。然后，我们利用混合表示同时学习点级和元素级信息。元素级信息通过掩蔽注意力进行细化，并在分割丢失的情况下进行监督。该方法（第二排）达到70.6毫安时，比基线增加2.1毫安时。为了相互作用并实现两个层次的信息的相互细化，我们进一步用点元相互作用器取代了可变形和掩模。此设置（第三排）可获得73.1毫安时的电量，并带来2.5毫安时的额外增益。在添加点元素一致性后，HIMap最终获得73.7 mAP，确保了比基线增加5.2 mAP。

点元素交互器。点元交互中有几个关键因素，包括特征提取器之间是否共享位置嵌入，是否利用集成信息更新点查询和元素查询。相应地，我们将这些因素表示为“共享pos”、“inte-P”和“inte-E”，并在表6中对其进行研究。为了关注点元交互作用的效果，本部分没有采用点元一致性。在没有所有这些因素的情况下，它相当于在可变形和掩蔽注意力的情况下学习HIQuery，获得70.6 mAP。共享位置嵌入旨在利用和增强点和元素之间的对应关系，并带来1.0mAP增益（第二行）。利用集成信息只更新点查询、只更新元素查询或同时更新两个查询（第3行、第4行和第5行），分别带来0.5、1.2和1.5mAP的增益。这验证了利用集成信息来更新两个查询能够实现点和元素的相互细化。考虑到所有这些因素，点元件相互作用器最终带来了2.5mAP的增益。点元素一致性。我们调整点元素一致性约束的损失权重来观察效果。如表7所示，结果对损失权重不敏感，但过大的权重可能会导致两个级别的信息过于相似，从而降低点元素相互作用的效果。根据经验，我们将减肥设定为2.0，并达到73.7mAP。

可视化

结论

在本文中，我们介绍了一种简单而有效的基于混合表示学习的HybrId框架（即HIMap），用于端到端矢量化HD地图构建。在HIMap中，我们引入了HIQuery来表示所有的地图元素，引入了一个点元素交互器来交互式地提取点级和元素级信息并将其编码到HIQuery中，引入了点元素一致性约束来加强两级信息之间的一致性。通过上述设计，HIMap在nuScenes和Argoverse2数据集上都实现了新的SOTA性能。

限制讨论。（1）本文主要致力于提高地图重建精度，并将模型加速留给未来的工作。（2）目前所提出的方法构建二维高精地图。考虑到道路的高度变化对自动驾驶非常重要，如何预测准确的3D高精地图值得进一步探索。（3）我们考虑了HIMap中的点元素一致性，但没有讨论HD映射在多个时间戳上的一致性。我们认为，挖掘时间信息和预测一致的高精地图是有价值的研究方向。

#RadarDistill

通过LiDAR特征的知识蒸馏提升Radar检测性能

原标题：RadarDistill: Boosting Radar-based Object Detection Performance via Knowledge Distillation from LiDAR Features

论文链接：https://arxiv.org/pdf/2403.05061.pdf

作者单位：汉阳大学 KAIST 首尔国立大学

论文思路：

Radar 数据固有的噪声和稀疏特性，给寻找有效的三维目标检测表示带来了挑战。本文提出了一种新颖的知识蒸馏（KD）方法——RadarDistill，它可以通过利用 LiDAR 数据来改善 Radar 数据的表示。RadarDistill 通过三个关键组件成功地将 LiDAR 特征的理想特性迁移到 Radar 特征中：跨模态对齐（CMA）、基于激活的特征蒸馏（AFD）和基于提议的特征蒸馏（PFD）。CMA通过多层膨胀操作增强Radar 特征的密度，有效地应对了从 LiDAR 到 Radar 的知识迁移不足的挑战。AFD旨在从 LiDAR 特征的重要区域迁移知识，尤其是激活强度超过预定阈值的区域。PFD 指导 Radar 网络模仿 LiDAR 网络在目标提议中的特征，以获得准确的检测结果，同时调节误检提议（如误报）的特征。本文在 nuScenes 数据集上进行的比较分析表明，RadarDistill 在 radar-only 目标检测任务中实现了最先进的（SOTA）性能，达到了 20.5% mAP 和 43.7% NDS 。此外，RadarDistill 显著提高了 camera-radar 融合模型的性能。

主要贡献：

本文的研究首次证明，在训练过程中使用 LiDAR 数据可以显著改善 Radar 目标检测。图1中的定性结果突出显示，通过 RadarDistill 获取的 Radar 特征成功地模仿了 LiDAR 特征，从而提高了目标检测和定位的性能。

本文的发现表明，跨模态对齐（CMA）是 RadarDistill 的关键要素。在没有 CMA 的情况下，本文观察到性能提升显著下降。根据本文的消融研究，CMA 在解决由于 Radar 和 LiDAR 点云密度不同而导致的知识迁移不足中发挥着关键作用。

本文提出了两种新颖的知识蒸馏方法，AFD 和 PFD。这些方法用于弥合 Radar 特征与 LiDAR 特征之间的差异，在两个独立的特征层面上进行操作，并使用了为每个层面特别设计的知识蒸馏损失函数。

RadarDistill 在 nuScenes 基准测试中的 radar-only 目标检测器类别中实现了最先进的性能。它还为 camera-radar 融合场景实现了显著的性能提升。

网络设计：

尽管基于相机和 LiDAR 传感器的三维感知已经被广泛研究，但由于价格实惠以及在恶劣天气条件下的可靠性，Radar 传感器现在正受到关注。Radar 传感器能够在鸟瞰图（Bird's Eye View, BEV）中定位物体，并且通过多普勒频率分析测量它们的径向速度。然而，与 LiDAR 或相机传感器相比，Radar 的主要局限性是其较低的空间分辨率以及由于多路径反射导致的较高的误报可能性。数十年来，许多 Radar 制造商开发了基于手工制作的模型的传统目标检测和跟踪方法，以克服这些局限性。尽管深度神经网络（DNNs）已经显著改善了相机和 LiDAR 传感器的三维感知，但类似的进步并没有在针对 Radar 传感器的特定架构中得到体现。只有少数研究将深度神经网络应用于 Radar 数据。例如，KPConvPillars [28] 和 Radar-PointGNN [26] 分别利用 KPConv [27] 和图神经网络来使用 Radar 点云检测物体。然而，这些方法尚未达到与相机或 LiDAR 数据实现的显著改进水平。最近的研究表明，Radar 可以与相机或 LiDAR 数据有效融合，以增强三维目标检测的鲁棒性[13–15, 21, 31, 42]。

本篇论文聚焦于使用深度神经网络提升 radar-based 三维目标检测性能。本文注意到，Radar 性能的局限性在很大程度上是由于寻找有效表征的挑战，鉴于 Radar 测量的稀疏和噪声特性。受到深度模型编码 LiDAR 点云取得显著成功的启发，本文的目标是将从基于 LiDAR 的模型中提取的知识迁移到基于 Radar 的模型中，以提升其性能。最近，知识蒸馏（Knowledge Distillation, KD）技术在将知识从一个传感器模态迁移到另一个模态方面显示出成功，从而细化目标模型的表征质量。迄今为止，文献中介绍了各种KD方法[3, 4, 8, 11, 16, 32, 40, 41]。跨模态知识蒸馏可以根据学生模型使用的模态大致分为两种方法。当使用相机作为学生模型时，从教师模型到学生模型迁移深度和形状信息。BEVDistill [3]将 LiDAR 和相机特征转换为鸟瞰图（Bird's Eye View, BEV）格式，使得 LiDAR 特征中的空间知识能够迁移到相机特征中。DistillBEV [32]利用 LiDAR 或 LiDAR-Camera 融合模型的预测结果区分前景和背景，引导学生模型专注于在关键区域进行知识蒸馏。S2M2-SSD [40]根据学生模型的预测确定关键区域，并将 LiDAR-Camera 融合模型在关键区域获得的信息进行迁移。除了这些方法，UniDistill [41]采用了一个通用的跨模态框架，使得不同模态之间的知识迁移成为可能。这一框架适应于不同的模态配对，包括 camera-to-LiDAR, LiDAR-to-camera, and (camera+LiDAR)-to-camera 的设置。

本文提出了 RadarDistill，这是一个新颖的知识蒸馏（KD）框架，旨在利用 LiDAR 数据提升 Radar 数据的表征。本文的研究表明，通过采用 Radar 编码网络作为学生网络和 LiDAR 编码网络作为教师网络，本文的 KD 框架有效地生成了类似于从 LiDAR 数据中派生的密集且语义丰富的特征的 Radar 特征，以实现更好的目标检测。尽管在训练阶段使用了 LiDAR 数据及其编码网络来增强 Radar 特征，但在推理阶段并不需要它们。

本文提出的 RadarDistill 基于三个主要思想设计：1) 跨模态对齐（Cross-Modality Alignment, CMA），2) 基于激活的特征蒸馏（Activation-based Feature Distillation, AFD），以及 3) 基于提议的特征蒸馏（Proposal-based Feature Distillation, PFD）。本文的研究表明，由于 Radar 数据固有的稀疏性，将知识从 LiDAR 迁移到 Radar 特征是困难的，这使得与分布更密集的 LiDAR 特征的对齐变得复杂。为了解决这个问题，CMA 通过实施多层扩张操作，增强了学生网络的能力，并同时增加了激活 Radar 特征的比例。

本文提出的 AFD 和 PFD 旨在缩小 Radar 编码网络和 LiDAR 编码网络生成的中间特征之间的分布差距。最初，AFD 对低层特征进行激活感知特征匹配。具体来说，它根据每个特征的激活强度将 Radar 和 LiDAR 的特征划分为活跃区域和非活跃区域，并分别为每个区域构建知识蒸馏（KD）损失。通过给与活跃区域相关联的KD损失更大的权重，AFD 使网络能够集中在迁移重要特征的知识上。

接下来，PFD 实施了基于提议的选择性特征匹配，旨在缩小与 Radar 检测头生成的提议相关联的特征之间的差异。PFD 指导 Radar 网络生成与高级 LiDAR 特征在形状上相似的物体特征，以便准确检测提议。相反地，对于误检的提议，如误报，模型被引导以抑制错误激活的特征，反映出 LiDAR 特征的低激活状态。

综合这些思想，本文的 RadarDistill 在nuScenes基准测试[1]上，相对于当前最先进的（SOTA） radar-only 目标检测方法，实现了在 mAP 上 +15.6% 的增益，以及在 NDS 上 +29.8% 的增益。本文还展示了，当通过 RadarDistill 增强的 Radar 特征集成到 radar-camera 融合模型中时，可以实现显著的性能提升。

图1. RadarDistill 示意图。通过从 LiDAR 特征到 Radar 特征的知识迁移，本文的 RadarDistill 将稀疏且嘈杂的 Radar 特征转换为密集且语义丰富的类LiDAR 特征，以实现更好的目标检测。

图2. RadarDistill 的整体架构。来自每种模态的输入点云最初通过柱状编码（Pillar Encoding）和稀疏二维卷积神经网络（Sparse 2D CNN）进行处理，以提取低层次特征。CMA 处理 Radar 的低层次特征，使其更加密集，并与 LiDAR 的特征对齐。AFD 区分 Radar 和 LiDAR 特征中的活跃区域和非活跃区域，并使用不同的重要性因子最小化它们的知识蒸馏（Knowledge Distillation, KD）损失。随后，检测头识别出提议级特征，PFD 减少了从 Radar 和 LiDAR 网络获得的提议特征之间的分布差异。LiDAR 数据只在训练阶段需要用来增强 Radar 特征，在推理阶段则不需要。

图 3. 所提出的 CMA 模块的详细结构

实验结果：

总结：

本文引入了一种新的 radar-based 三维目标检测方法 RadarDistill，它通过知识蒸馏利用 LiDAR 数据以提升性能。本文的方法成功地指导了 Radar 编码网络生成与 LiDAR 的详细和语义丰富特征非常相似的 Radar 特征。CMA 提高了学生网络的表达能力，超越了教师网络，使学生网络能够更有效地学习 LiDAR 特征的复杂分布。通过活跃区域感知的特征匹配和提议级选择性特征匹配，AFD 和 PFD 成功减少了来自 LiDAR 特征分布的差异，特别是在中间特征的重要区域内。本文的实验表明，RadarDistill 在 radar-only 的目标检测中达到了最先进的性能，并在 camera-radar 融合场景中提供了显著的性能提升。本文将为 camera-radar 融合专门设计更复杂的知识蒸馏框架的工作留待未来进行。

#LiDAR Diffusion

面向真实感场景生成的激光雷达扩散模型

原标题：Towards Realistic Scene Generation with LiDAR Diffusion Models

论文链接：https://hancyran.github.io/assets/paper/lidar_diffusion.pdf

代码链接：https://lidar-diffusion.github.io

作者单位：CMU 丰田研究院南加州大学

论文思路：

扩散模型（DMs）在逼真的图像合成方面表现出色，但将其适配到激光雷达场景生成中却面临着重大挑战。这主要是因为在点空间运作的DMs 难以保持激光雷达场景的曲线样式和三维几何特性，这消耗了它们大部分的表征能力。本文提出了激光雷达扩散模型（LiDMs），这一模型通过在学习流程中融入几何先验，能够从为捕获激光雷达场景的真实感而定制的隐空间中生成逼真的激光雷达场景。本文的方法针对三个主要愿望：模式的真实性、几何的真实性和物体的真实性。具体来说，本文引入了曲线压缩来模拟现实世界的激光雷达模式，点级(point-wise)坐标监督来学习场景几何，以及块级(patch-wise)编码以获得完整的三维物体上下文。凭借这三个核心设计，本文在无条件激光雷达生成的64线场景中建立了新的SOTA，同时与基于点的DMs相比保持了高效率（最高可快107倍）。此外，通过将激光雷达场景压缩到隐空间，本文使 DMs 能够在各种条件下控制，例如语义地图、相机视图和文本提示。

主要贡献：

本文提出了一种新颖的激光雷达扩散模型（LiDM），这是一种生成模型，能够用于基于任意输入条件的逼真激光雷达场景生成。据本文所知，这是第一个能够从多模态条件生成激光雷达场景的方法。

本文引入了曲线级压缩以保持逼真的激光雷达模式，点级坐标监督以规范场景级几何的模型，并且引入了块级编码以完全捕捉3D物体的上下文。

本文引入了三个指标，用于在感知空间中全面且定量地评估生成的激光雷达场景质量，比较包括距离图像、稀疏体积和点云等多种表示形式。

本文的方法在64线激光雷达场景的无条件场景合成上实现了最新水平，并且相比于基于点的扩散模型实现了高达107倍的速度提升。

网络设计：

近年来，条件生成模型的发展迅猛，这些模型能够生成视觉上吸引人且高度逼真的图像。在这些模型中，扩散模型（DMs）凭借其无可挑剔的性能，已经成为最受欢迎的方法之一。为了实现任意条件下的生成，隐扩散模型（LDMs）[51] 结合了交叉注意力机制和卷积自编码器，以生成高分辨率图像。其后续扩展（例如，Stable Diffusion [2], Midjourney [1], ControlNet [72]）进一步增强了其条件图像合成的潜力。

这一成功引发了本文的思考：我们能否将可控的扩散模型（DMs）应用于自动驾驶和机器人技术中的激光雷达场景生成？例如，给定一组边界框，这些模型能否合成相应的激光雷达场景，从而将这些边界框转化为高质量且昂贵的标注数据？或者，是否有可能仅从一组图像生成一个3D场景？甚至更有野心地，我们能设计出一个由语言驱动的激光雷达生成器来进行可控模拟吗？为了回答这些交织在一起的问题，本文的目标是设计出能够结合多种条件（例如，布局、相机视角、文本）来生成逼真激光雷达场景的扩散模型。

为此，本文从最近自动驾驶领域的扩散模型（DMs）工作中获取了一些见解。在[75]中，介绍了一种基于点的扩散模型（即LiDARGen），用于无条件的激光雷达场景生成。然而，这个模型往往会产生嘈杂的背景（如道路、墙壁）和模糊不清的物体（如汽车），导致生成的激光雷达场景与现实情况相去甚远（参见图1）。此外，在没有任何压缩的情况下对点进行扩散，会使得推理过程计算速度变慢。而且，直接应用 patch-based 扩散模型（即 Latent Diffusion [51]）到激光雷达场景生成，无论是在质量上还是数量上，都未能达到令人满意的性能（参见图1）。

为了实现条件化的逼真激光雷达场景生成，本文提出了一种基于曲线的生成器，称为激光雷达扩散模型（LiDMs），以回答上述问题并解决近期工作中的不足。LiDMs 能够处理任意条件，例如边界框、相机图像和语义地图。LiDMs 利用距离图像作为激光雷达场景的表征，这在各种下游任务中非常普遍，如检测[34, 43]、语义分割[44, 66]以及生成[75]。这一选择是基于距离图像与点云之间可逆且无损的转换，以及从高度优化的二维卷积操作中获得的显著优势。为了在扩散过程中把握激光雷达场景的语义和概念本质，本文的方法在扩散过程之前，将激光雷达场景的编码点转换到一个感知等效的隐空间(perceptually equivalent latent space)中。

为了进一步提高真实世界激光雷达数据的逼真模拟效果，本文专注于三个关键组成部分：模式真实性、几何真实性和物体真实性。首先，本文利用曲线压缩在自动编码过程中保持点的曲线图案，这一做法受到[59]的启发。其次，为了实现几何真实性，本文引入了点级坐标监督，以教会本文的自编码器理解场景级别的几何结构。最后，本文通过增加额外的块级下采样策略来扩大感受野，以捕捉视觉上较大物体的完整上下文。通过这些提出的模块增强，所产生的感知空间使得扩散模型能够高效地合成高质量的激光雷达场景（参见图1），同时在性能上也表现出色，与基于点的扩散模型相比速度提升了107倍（在一台NVIDIA RTX 3090上评估），并支持任意类型的基于图像和基于 token 的条件。

图1. 本文的方法（LiDM）在无条件的激光雷达逼真场景生成方面确立了新的SOTA，并标志着从不同输入模态生成条件化激光雷达场景方向上的一个里程碑。

图2. 64线数据上 LiDMs 的概览，包括三个部分：激光雷达压缩（参见第3.3节和3.5节）、多模态条件化（参见第3.4节）以及激光雷达扩散（参见第3.5节）。

实验结果：

图3. 在64线场景下，来自 LiDARGen [75]、Latent Diffusion [51] 以及本文的 LiDMs 的例子。

图4. 在32线场景下，来自本文 LiDMs 的例子。

图5. 在SemanticKITTI [5]数据集上，用于语义地图到激光雷达生成的本文的 LiDM 的例子。

图6. 在KITTI-360 [37]数据集上，用于条件相机到激光雷达生成的 LiDM 的例子。橙色框表示输入图像所覆盖的区域。对于每个场景，KITTI-360提供一个视角，它只覆盖了场景的一部分。因此，LiDM 对相机覆盖的区域执行条件生成，对其余未观测到的区域执行无条件生成。

图7. 在64线场景下，用于 zero-shot 文本到激光雷达生成的 LiDM 的例子。橙色虚线框起的区域表示受条件影响的区域，绿色框突出显示了可能与提示词相关联的物体。

图9. LiDM 的例子，包括有或没有点级监督，如第3.3节所提出的。

总结：

本文提出了激光雷达扩散模型（LiDMs），这是一个用于激光雷达场景生成的通用条件化框架。本文的设计着重于保留曲线状的图案以及场景级别和物体级别的几何结构，为扩散模型设计了一个高效的隐空间，以实现激光雷达逼真生成。这种设计使得本文的 LiDMs 在64线场景下能够在无条件生成方面取得有竞争力的性能，并在条件生成方面达到了最先进的水平，可以使用多种条件对 LiDMs 进行控制，包括语义地图、相机视图和文本提示。据本文所知，本文的方法是首次成功将条件引入到激光雷达生成中的方法。

#3D-Occupancy-Perception

最近OCC的综述很多，这两天arxiv上又挂出来一篇，从信息融合的角度全面回顾了占用网络的相关工作，值得一看！

3D占用感知技术旨在观察和理解自动驾驶汽车的密集3D环境。由于其全面的感知能力，该技术正在成为自动驾驶感知系统的一种趋势，并引起了工业界和学术界的极大关注。与传统的BEV感知类似，3D占用感知具有多源输入的性质，具有信息融合的必要性。然而，不同之处在于，它捕捉了2D BEV忽略的垂直结构。在这项调查中，我们回顾了关于3D占用感知的最新工作，并对各种输入模态的方法进行了深入分析。具体来说，我们总结了一般的网络管道，重点介绍了信息融合技术，并讨论了有效的网络训练。我们在最流行的数据集上评估和分析了最先进的占用感知性能。此外，还讨论了挑战和未来的研究方向。

开源仓库：https://github.com/HuaiyuanXu/3D-Occupancy-Perception

总结来说，本文的主要贡献如下：

我们系统地回顾了自动驾驶领域3D占用感知的最新研究，涵盖了整体研究背景、对其重要性的全面分析以及对相关技术的深入讨论。
我们提供了3D占用感知的分类，并详细阐述了核心方法论问题，包括网络pipeline、多源信息融合和有效的网络训练。
我们提供了3D占用感知的评估，并提供了详细的性能比较。此外，还讨论了目前的局限性和未来的研究方向。

背景

Occ历史回顾

占用感知源于占用网格映射（OGM），这是移动机器人导航中的一个经典主题，旨在从有噪声和不确定的测量中生成网格图。该地图中的每个网格都被分配了一个值，该值对网格空间被障碍物占据的概率进行评分。语义占用感知源于SUNCG，它从单个图像中预测室内场景中所有体素的占用状态和语义。然而，与室内场景相比，研究室外场景中的占用感知对于自动驾驶来说是必不可少的。MonoScene是仅使用单眼相机进行户外场景占用感知的开创性工作。特斯拉在2022年CVPR自动驾驶研讨会上宣布了其全新的纯视觉的占用网络，与MonoScene并驾齐驱。这个新网络根据环绕视图RGB图像全面了解车辆周围的3D环境。随后，占用感知引起了广泛关注，推动了近年来自动驾驶占用感知研究的激增。

早期的户外占用感知方法主要使用激光雷达输入来推断3D占用。然而，最近的方法已经转向更具挑战性的以视觉为中心的3D占用预测。目前，占用感知研究的一个主要趋势是以视觉为中心的解决方案，辅以以激光雷达为中心的方法和多模式方法。占用感知可以作为端到端自动驾驶框架内3D物理世界的统一表示，随后是跨各种驾驶任务（如检测、跟踪和规划）的下游应用。占用感知网络的训练在很大程度上依赖于密集的3D占用标签，导致了多样化街景占用数据集的开发。最近，利用大型模型强大的性能，将大型模型与占用感知相结合，有望缓解繁琐的3D占用标签需求。

与OCC的相关任务主要包含：

BEV感知
3D语义场景补全
视觉3D重建

方法论

表1详细介绍了自动驾驶占用感知的最新方法及其特点。该表详细说明了每种方法的发布地点、输入方式、网络设计、目标任务、网络培训和评估以及开源状态。下面，我们根据输入数据的模态将占用感知方法分为三种类型。它们分别是以激光雷达为中心的占用感知、以视觉为中心的占据感知和多模态占用感知。随后，讨论了占用网络的训练及其损失函数。最后，介绍了利用占用感知的各种下游应用程序。

LiDAR-Centric Occupancy Perception

General Pipeline

以激光雷达为中心的语义分割仅预测稀疏点的语义类别。相比之下，以激光雷达为中心的占用感知提供了对环境的密集3D理解，这对自动驾驶系统至关重要。对于激光雷达传感，所获取的点云具有固有的稀疏特性，并受到遮挡。这就要求以激光雷达为中心的占用感知不仅解决了场景从稀疏到密集的占用推理，而且实现了对物体的部分到完全估计。

图3a说明了以激光雷达为中心的占用感知的一般流程。输入点云首先进行特征提取和体素化，然后通过编码器-解码器模块进行表示增强。最终，推断出场景的完整和密集占用。

以激光雷达为中心的OCC信息融合

一些作品直接利用单个2D分支来推理3D占用，例如DIF和PointOcc。在这些方法中，只需要2D特征图而不是3D特征体积，从而减少了计算需求。然而，一个显著的缺点是高度信息的部分丢失。相反，3D分支不压缩任何维度的数据，从而保护完整的3D场景。为了提高三维分支中的内存效率，LMSCNet将高度维度转换为特征通道维度。与3D分支中的3D卷积相比，这种自适应便于使用更高效的2D卷积。此外，集成来自2D和3D分支的信息可以显著地细化占用预测。

S3CNet提出了一种独特的后期融合策略，用于整合来自2D和3D分支的信息。该融合策略涉及动态体素融合技术，该技术利用2D分支的结果来增强来自3D分支的输出的密度。消融研究报告称，这种直接的信息融合策略可以在3D占用感知方面提高5-12%的性能。

以视觉为中心的OCC预测

General Pipeline

受特斯拉的启发，以视觉为中心的占用感知在工业界和学术界都引起了极大的关注。与以激光雷达为中心的方法相比，仅依赖于相机传感器的以视觉为中心的占用感知代表了当前的趋势。主要有三个原因：（i）相机在车辆上大规模部署具有成本效益。（ii）RGB图像捕捉丰富的环境纹理，有助于理解场景和物体，如交通标志和车道线。（iii）深度学习技术的迅速发展使从2D视觉实现3D占用感知成为可能。以视觉为中心的占用感知可以分为单目解决方案和环视解决方案。多摄像头感知覆盖了更广阔的视野，遵循如图3b所示的一般流程。它首先从多摄像头图像中提取前视图特征图，然后进行二维到三维转换、空间信息融合和可选的时间信息融合，最后使用占用头推断环境三维占用情况。

2D-to-3D Transformation

该转换旨在将前视图特征转换为BEV特征、TPV特征或体积特征，以获取前视图缺失的深度维度。值得注意的是，尽管BEV特征位于俯视2D平面上，但它们可以将高度信息编码到特征的通道维度中，从而表示3D场景。三视角视图将3D空间投影到三个正交的2D平面中，使得3D空间中的每个特征可以表示为三个TPV特征的组合。这种转换可以分为三种类型，分别以使用投影、反向投影和交叉注意力技术为特征。以体积特征的构建为例，该过程如图4a所示。

Projection
Back projection
Cross Attention

以视觉为中心的OCC信息融合

在环视设置中，每个相机的前视图特征图描述场景的一部分。为了全面了解场景，有必要在空间上融合来自多个特征图的信息。此外，场景中的对象可能被遮挡或处于运动中。临时融合多帧的特征图可以帮助推断遮挡区域并识别物体的运动状态。

（1）空间信息融合：来自多个相机的观测结果的融合可以创建具有扩展视野的3D特征体积，用于场景感知。在多相机视图的重叠区域内，特征体积中的3D体素在投影后会碰到几个2D前视图特征图。有两种方法可以融合命中的2D特征：平均注意力和交叉注意力，如图4b所示。平均运算计算多个特征的平均值，这简化了融合过程并降低了计算成本。然而，它假设不同2D视角对感知3D场景的贡献是相等的。这种情况可能并不总是如此，尤其是当某些视图被遮挡或模糊时。

（2）时间信息融合：基于视觉的BEV感知系统的最新进展表明，整合时间信息可以显著提高感知性能。同样，在基于视觉的占用感知中，可以通过结合历史特征和当前感知输入的相关信息来提高准确性和可靠性。时间信息融合过程由两个部分组成：时间-空间对齐和特征融合，如图4c所示。

多模态OCC

General Pipeline

相机拍摄的RGB图像提供了丰富而密集的语义信息，但对天气条件变化敏感，缺乏精确的几何细节。相比之下，激光雷达或雷达的点云对天气变化具有鲁棒性，并擅长通过准确的深度测量捕捉场景几何结构。然而，它们只产生稀疏的特征。多模态占用感知可以结合多种模态的优势，减轻单模态感知的局限性。图3c展示了多模式占用感知的一般流程。大多数多模态方法将2D图像特征映射到3D空间，然后将它们与点云特征融合。此外，在融合过程中结合2D透视图特征可以进一步细化表示。融合表示由可选的细化模块和占用头（例如3D卷积或MLP）处理，以生成最终的3D占用预测。可选的细化模块可以是交叉注意力、自注意力和扩散去噪的组合。

多模态OCC的信息融合

有三种主要的多模态信息融合技术来集成不同的模态分支：串联、求和和和交叉注意。

（1）串联：受BEVFusion的启发，OccFusion通过沿着特征通道连接来自不同模态的3D特征体积，并随后应用卷积层。类似地，RT3DSO将3D点的强度值及其相应的2D图像特征（通过投影）连接起来，然后将组合数据馈送到卷积层。然而，3D空间中的一些体素可能仅包含来自点云分支或视觉分支的特征。为了缓解这个问题，CO-Occ引入了几何和语义感知融合（GSFusion）模块，该模块识别包含点云和视觉信息的体素。该模块利用K近邻（KNN）搜索来选择特定半径内体素空间中给定位置的K近邻。

（2）求和：CONet和OccGen采用自适应融合模块，动态集成来自相机和激光雷达分支的占用表示。它利用3D卷积来处理多个单模态表示，以确定其融合权重，随后应用这些权重来求和激光雷达分支表示和相机分支特征。

（3）交叉注意：HyDRa提出了在透视图（PV）和BEV表示空间中集成多模态信息。具体地，PV图像特征通过使用交叉注意力的BEV点云特征来改进。然后，将增强的PV图像特征转换为具有估计深度的BEV视觉表示。这些BEV视觉特征通过与BEV点云特征串联，然后是简单的挤压和激发层来进一步增强。最后，通过交叉关注将增强的PV图像特征和增强的BEV视觉特征融合，得到最终的占用表示。

模型训练

我们根据监督训练类型对文献中提到的网络训练技术进行分类。最普遍的类型是强监督学习，而其他人则采用弱监督、半监督或自监督的方式进行训练。本节详细介绍了这些网络训练技术及其相关的损失函数。表1中的“训练”列简要概述了各种占用感知方法的网络训练。

Training with Strong Supervision

占用感知的强监督学习涉及使用占用标签来训练占用网络。大多数占用感知方法都采用这种训练方式。相应的损失函数可分为：几何损失，优化几何精度；语义损失，增强语义预测；语义和几何损失相结合，这促进了更好的语义和几何准确性；一致性损失，鼓励整体一致性；以及提炼损失，将知识从教师模式转移到学生模式。接下来，我们将提供详细的描述。

在几何损失中，二进制交叉熵（BCE）损失是最常用的，用于区分空体素和占用体素。

交叉熵（CE）损失是优化占用语义的首选损失。它将类视为独立的实体。

此外，一些占用感知方法使用了其他语义损失，这些损失通常用于语义分割任务，如Lovasz-Softmax损失和Focal损失。此外，还有两种专门的语义损失：截头体比例损失，它从视觉截头体的角度提供线索来缓解遮挡歧义；位置感知损失，它利用局部语义比喻来鼓励更清晰的语义和几何梯度。

可以同时优化占用感知的语义和几何结构的损失包括场景类仿射损失和掩码分类损失。前者从几何和语义角度优化了准确性、回忆性和特异性的组合。后者通常与掩模解码器头相关联。掩码分类损失源于MaskFormer和Mask2Former，它结合了交叉熵分类损失和每个预测掩码段的二进制掩码损失。

consistency损失和蒸馏损失分别对应于空间一致性损失和Kullback–Leibler（KL）发散损失。空间一致性损失最小化了空间中给定点和某些支持点之间语义推理的Jenssen-Shannon分歧，从而增强了语义的空间一致性。KL散度，也称为相对熵，量化了一个概率分布如何偏离参考分布。HASC采用KL发散损失来鼓励学生模型从教师模型提供的在线软标签中学习更准确的占用率。

Training with Other Supervisions

（1）弱监督：表示未使用占用标签，监管来源于替代标签。例如，具有语义标签的点云可以指导占用预测。具体来说，Vampire和RenderOcc构建密度和语义体积，这有助于通过体积渲染推断场景的语义占用，以及计算深度和语义图。这些方法不使用占用标签。或者，他们将带有语义标签的激光雷达点云投影到相机平面上，以获取地面实况深度和语义，然后监督网络训练。由于强监督和弱监督学习都预测几何和语义占用，因此强监督学习中使用的损失，如交叉熵损失、Lovasz-Softmax损失和尺度不变对数损失，也适用于弱监督学习。

（2）半监督：它使用占用标签，但不覆盖整个场景，因此仅为占用网络培训提供半监督。POP-3D最初通过处理激光雷达点云来生成占用标签，其中，如果体素包含至少一个激光雷达点，则将其记录为占用，否则为空。考虑到激光雷达点云中固有的稀疏性和遮挡性，以这种方式产生的占用标签并不包括整个空间，这意味着只有场景的一部分具有其占用标签。POP-3D采用交叉熵损失和Lovasz-Softmax损失来监督网络训练。此外，为了建立文本和3D占用之间的跨模态对应关系，POP-3D提出将语言图像特征和3D语言特征之间的L2均方误差计算为模态对齐损失。

（3）自监督：它在没有任何标签的情况下训练占用感知网络。为此，体积渲染提供了一个自监督信号，通过最小化光度差异，从时间和空间角度鼓励不同视图之间的一致性。MVBTS计算渲染的RGB图像和目标RGB图像之间的光度差。然而，其他几种方法可以计算扭曲图像（来自源图像）和目标图像之间的差异，其中扭曲过程所需的深度是通过体积渲染获得的。OccNeRF认为，不比较渲染图像的原因是，室外场景的规模大，视图监督少，这会使体积渲染网络难以收敛。从数学上讲，照片集一致性损失结合了L1损失和可选的结构相似性（SSIM）损失来计算重建误差。

评测

性能

感知准确性

SemanticKITTI是第一个具有户外驾驶场景3D占用标签的数据集。Occ3D nuScenes是CVPR 2023 3D占用预测挑战中使用的数据集。这两个数据集是目前最受欢迎的。因此，我们总结了在这些数据集上训练和测试的各种3D占用方法的性能，如表3和表4所示。这些表分别根据输入模式和监督学习类型进一步组织占用方法。最佳表现以粗体突出显示。表3利用IoU和mIoU度量来评估3D几何形状和3D语义占用感知能力。表4采用mIoU和mIoU来评估语义占用感知。与mIoU不同，mIoU度量不包括“其他”和“其他平面”类，由自监督OccNeRF使用。为了公平起见，我们计算了其他自监督占用方法的mIoU＊。值得注意的是，OccScore指标用于CVPR 2024自主大挑战赛，但目前尚未普及。因此，我们没有用这个指标来总结入住率表现。下面，我们将从三个方面对感知准确性进行比较：整体比较、模态比较和超视觉比较。

（1）总体比较。表3显示（i）占用网络的IoU分数小于50%，而mIoU分数低于30%。IoU分数（指示几何感知，即忽略语义）大大超过mIoU分数。这是因为预测某些语义类别的占用率很有挑战性，例如自行车、摩托车、人、骑自行车的人、骑摩托车的人、电线杆和交通标志。这些类中的每一个在数据集中的比例都很小（不到0.3%），它们的形状很小，很难观察和检测。因此，如果这些类别的IOU分数较低，它们会显著影响mIoU的整体值。因为mIOU计算不考虑类别频率，它将所有类别的总IoU分数除以类别的数量。（ii）较高的IoU并不保证较高的mIoU。一种可能的解释是，占用网络的语义感知能力（反映在mIoU中）和几何感知能力（体现在IoU中中）是不同的，并且不是正相关的。

从表4中可以明显看出，（i）占用网络的mIOU分数在50%以内，高于SemanticKITTI上的分数。例如，TPVFormer在SemanticKITTI上的mIOU为11.26%，但在Occ3D nuScenes上为27.83%。类似地，OccFormer和SurroundOcc具有相同的情况。我们认为这可能是由于Occ3D nuScenes中的占用标签更准确。SemanticKITTI基于激光雷达点云对每个体素进行注释，也就是说，基于对体素内所有标记点的多数投票，将标签分配给体素。相比之下，Occ3D nuScenes利用了复杂的标签生成过程，包括体素致密化、遮挡推理和图像引导的体素细化。此注释可以生成更精确、更密集的三维占用标签。（ii）COTR的mIoU最好（46.21%），并且在所有类别中的IoU得分最高。

（2）模态比较。输入数据模态显著影响3D占用感知准确性。“Mod.”表3中的列报告了各种占用方法的输入模式。可以看出，由于激光雷达传感提供了准确的深度信息，以激光雷达为中心的占用方法具有更精确的感知，IoU和mIoU得分更高。例如，S3CNet具有最高的mIoU（29.53%），DIFs实现了最高的IoU（58.90%）。我们观察到，这两种多模态方法并不优于S3CNet和DIF，这表明它们没有充分利用多模态融合的优势和输入数据的丰富性。在多模式占用感知方面有相当大的进一步改进潜力。此外，尽管近年来以视觉为中心的占用感知发展迅速，但从表3可以看出，最先进的以视觉为核心的占用方法在IoU和mIoU方面与以激光雷达为中心的方法仍有差距。我们认为有必要进一步改进以视觉为中心的方法的深度估计。

（3）监督比较。“主管”表4的列概述了用于训练占用网络的监督学习类型。具有强大监督的培训，直接使用3D占用标签，是最普遍的类型。表4显示，基于强监督学习的占用网络取得了令人印象深刻的性能。FastOcc、FB Occ、PanoOcc和COTR的mIoU得分显著高于弱监督或自监督方法（mIoU增加12.42%-38.24%）。这是因为数据集提供的占用标签经过了高精度的标注，并且可以对网络训练施加强大的约束。然而，注释这些密集的占用标签既费时又费力。有必要探索基于薄弱或自我监督的网络培训，以减少对占用标签的依赖。Vampire是基于弱监督学习的表现最好的方法，其mIoU得分为28.33%。这表明语义激光雷达点云可以监督三维占用网络的训练。然而，语义激光雷达点云的收集和注释是昂贵的。SelfOcc和OccNeRF是基于自我监督学习的两部具有代表性的占有作品。它们利用体积渲染和光度一致性来获取自监督信号，证明网络可以在没有任何标签的情况下学习3D占用感知。然而，它们的性能仍然有限，SelfOcc的mIoU为7.97%，OccNeRF的mIoU*为10.81%。

推理速度

最近关于3D占用感知的研究不仅开始考虑感知的准确性，还开始考虑其推理速度。根据FastOcc和FullySparse提供的数据，我们梳理了3D占用方法的推理速度，并在Occ3D nuScenes数据集上报告了它们的运行平台、输入图像大小、骨干架构和占用精度，如表5所示。

一种实用的占用方法应该具有高精度（mIoU）和快速推理速度（FPS）。从表5中可以看出，FastOcc实现了高mIoU（40.75%），与BEVFomer的mIoU相当。值得注意的是，FastOcc在性能较低的GPU平台上的FPS值高于BEVFomer。此外，经过TensorRT的加速，FastOcc的推理速度达到12.8Hz。

挑战与机遇

基于OCC的自动驾驶应用

3D占用感知使人们能够全面了解3D世界，并支持自动驾驶中的各种任务。现有的基于占用的应用程序包括分割、检测、流量预测和规划。（1）分割：语义占用感知本质上可以看作是一个三维语义分割任务。（2）检测：OccupancyM3D和SOGDet是实现三维物体检测的两个基于占用的作品。OccuencyM3D首先学习占用以增强3D特征，然后将其用于3D检测。SOGDet开发了两个并行任务：语义占用预测和3D对象检测，同时训练这些任务以实现相互增强。（3）流量预测：Cam4Occ从占用的角度预测三维空间中的前景流量，并实现对周围三维环境变化的理解。（4）规划：OccNet将物理3D场景量化为语义占用，并训练共享占用描述符。该描述符被馈送到各种任务头以实现驾驶任务。例如，运动规划头输出自车的规划轨迹。

然而，现有的基于占用的应用程序主要关注感知层面，而较少关注决策层面。鉴于3D占用比其他感知方式（如鸟瞰感知和透视感知）更符合3D物理世界，我们认为3D占用在自动驾驶中有更广泛的应用机会。在感知层面，它可以提高现有轨迹预测、3D物体跟踪和3D车道线检测的准确性。在决策层面，它可以帮助更安全的驾驶决策，并为驾驶行为提供3D解释。

部署效率

对于复杂的3D场景，总是需要处理和分析大量的点云数据或多视图视觉信息，以提取和更新占用状态信息。为了实现自动驾驶应用程序的实时性能，解决方案通常需要在有限的时间内完成计算，并需要高效的数据结构和算法设计。一般来说，在目标边缘设备上部署深度学习算法不是一项容易的任务。

目前，已经尝试在占用任务上进行一些实时工作。例如，Hou等人提出了一种基于输入分辨率、视图转换模块和预测头的调整来加快预测推理速度的解决方案FastOcc。刘等人提出了SparseOcc，一种没有任何密集三维特征的稀疏占用网络，以最小化基于稀疏卷积层和掩模引导的稀疏采样的计算成本。唐等人提出采用稀疏潜在表示代替TPV表示和稀疏插值运算，以避免信息丢失，降低计算复杂度。然而，上述方法距离采用自动驾驶系统的实时部署还有一段距离。

鲁棒3D占用预测

在动态和不可预测的真实世界驾驶环境中，感知鲁棒性对自动驾驶汽车的安全至关重要。现有技术的3D占用模型可能容易受到分布外的场景和数据的影响，例如会引入视觉偏差的照明和天气变化，以及由车辆运动引起的输入图像模糊。此外，传感器故障（例如，丢失帧和相机视图）也很常见。鉴于这些挑战，研究稳健的3D占用感知是有价值的。

然而，对稳健3D占用率的研究有限，主要是由于数据集的稀缺性。最近，ICRA 2024 RoboDrive挑战赛为研究稳健的3D占用感知提供了不完美的场景。我们认为，稳健BEV感知的相关工作可以启发稳健占用感知的研究。M-BEV提出了随机掩蔽和重建相机视图，以增强在各种丢失相机情况下的鲁棒性。GKT采用粗投影来实现鲁棒的BEV表示。在大多数涉及自然损伤的情况下，多模态模型因多模态输入的互补性而优于单模态模型。此外，在3D LiDAR感知中，Robo3D将知识从具有完整点云的教师模型提取到具有不完美输入的学生模型，从而增强了学生模型的鲁棒性。基于这些工作，实现稳健的3D占用感知可以包括但不限于稳健的数据表示、多种模式、网络架构和学习策略。

泛化性

3D标签是昂贵的，并且用于真实世界的大规模3D注释是不切实际的。在有限的3D标记数据集上训练的现有网络的泛化能力尚未得到广泛研究。为了摆脱对3D标签的依赖，自监督学习代表了一种实现广义3D占用感知的潜在途径。它从广泛的未标记图像中学习占用感知。然而，目前自监督的入住感知表现不佳。在Occ3D nuScene数据集上（见表4），自监督方法的最高精度在很大程度上低于强监督方法。此外，目前的自我监督方法需要用更多的数据进行训练和评估。因此，增强自监督广义三维占有率是未来一个重要的研究方向。此外，当前的3D占用感知只能识别一组预定义的对象类别，这限制了其可推广性和实用性。大型语言模型（LLM）和大型视觉语言模型（LVLMs）的最新进展表明，它们具有很好的推理和视觉理解能力。整合这些预先训练的大型模型已被证明可以增强感知的泛化能力。POP-3D利用强大的预训练视觉语言模型来训练其网络，并实现开放词汇的3D占用感知。因此，我们认为使用LLM和LVLMs是实现广义3D占用感知的挑战和机遇。

结论

本文对近年来自动驾驶中的3D占用感知进行了全面的调查。我们详细回顾和讨论了最先进的以激光雷达为中心、以视觉为中心和多模式感知解决方案，并重点介绍了该领域的信息融合技术。为了便于进一步研究，提供了现有占用方法的详细性能比较。最后，我们描述了一些悬而未决的挑战，这些挑战可能会启发未来几年的研究方向。我们希望这项调查能造福社区，支持自动驾驶的进一步发展，并帮助不熟练的读者在该领域导航。

#OmniDrive

集3D感知、推理规划于一体（英伟达最新）

这篇论文致力于解决当前多模态大语言模型 (MLLMs) 在自动驾驶应用中存在的关键挑战，尤其是将MLLMs从2D理解扩展到3D空间的问题。由于自动驾驶车辆 (AVs) 必须对3D环境做出准确的决策，这一扩展显得尤为重要。3D空间理解对于AV来说必不可少，因为它直接影响车辆做出明智决策、预测未来状态以及与环境安全互动的能力。

在此背景下，本文提出了一种全新的3D MLLM架构，借鉴了Q-Former风格的设计。该架构采用交叉注意力解码器，将高分辨率的视觉信息压缩到稀疏查询中，使其更易于扩展到高分辨率输入。这种架构与视角模型家族（如DETR3D、PETR(v2)、StreamPETR和Far3D）具有显著的相似性，因为它们都利用了稀疏的3D查询机制。通过对这些查询附加3D位置编码并与多视角输入进行交互，本文的架构实现了对3D空间的理解，从而更好地利用了2D图像中的预训练知识。

除了模型架构的创新，本文还提出了一个更具挑战性的基准——OmniDrive-nuScenes。该基准涵盖了一系列需要3D空间理解和长距离推理的复杂任务，并引入了反事实推理基准，以通过模拟决策和轨迹来推测潜在结果。这一基准有效弥补了当前开放式评估中偏向于单一专家轨迹的问题，从而避免了在专家轨迹上的过拟合。

综上所述，本文通过提出一个全面的端到端自主驾驶框架OmniDrive，在LLM-agent的基础上提供了一种有效的3D推理和规划模型，并构建了一个更具挑战性的基准，推动了自动驾驶领域的进一步发展。具体贡献如下：

提出了一种3D Q-Former架构，适用于各种驾驶相关任务，包括目标检测、车道检测、3D视觉定位、决策制定和规划。
引入了OmniDrive-nuScenes基准，这是第一个为解决规划相关挑战而设计的QA基准，涵盖了精确的3D空间信息。
实现了在规划任务上的最佳表现。

详解OmniDrive

整体结构

本文提出的OmniDrive-Agent结合了Q-Former和基于查询的3D感知模型的优点，在多视角图像特征中高效获取3D空间信息，解决自主驾驶中的3D感知与规划任务。整体架构如图所示。

感知任务预测：利用感知查询预测前景元素的类别和坐标。
载体查询对齐与文本生成：载体查询则通过单层MLP对齐至LLM令牌的维度（如LLaMA中的4096维度），并进一步用于文本生成：

5. 载体查询的作用：在模型中，载体查询承担视觉-语言对齐的角色。该设计使得载体查询可以利用3D位置编码提供的几何先验，同时通过3D感知任务所获取的基于查询的表示进行对齐。

通过该架构设计，OmniDrive-Agent能够高效地从多视角图像中获取丰富的3D空间信息，并结合LLM进行文本生成，为3D空间感知与自主驾驶提供新的解决方案。

Multi-task and Temporal Modeling

作者的方法受益于多任务学习和时序建模。在多任务学习中，作者可以为每个感知任务集成特定的Q-Former3D模块，并采用统一的初始化策略（请参见\cref{Training Strategy}）。在不同的任务中，载体查询能够收集不同交通元素的信息。作者的实现涵盖了诸如中心线构建和3D目标检测等任务。在训练和推理阶段，这些模块共享相同的3D位置编码。

关于时序建模，作者将具有top-k分类分数的感知查询存储在记忆库中，并逐帧传播。传播后的查询通过交叉注意力与当前帧的感知查询和载体查询进行交互，从而扩展模型对视频输入的处理能力。

Training Strategy

OmniDrive-Agent的训练策略分为两个阶段：2D预训练和3D微调。在初始阶段，作者首先在2D图像任务上对多模态大模型（MLLMs）进行预训练，以初始化Q-Former和载体查询。移除检测查询后，OmniDrive模型可以被视为一个标准的视觉语言模型，能够基于图像生成文本。因此，作者采用LLaVA v1.5的训练策略和数据，在558K图文对上预训练OmniDrive。在预训练期间，除Q-Former外，所有参数保持冻结状态。随后，使用LLaVA v1.5的指令调优数据集对MLLMs进行微调。在微调过程中，图像编码器保持冻结，其他参数均可训练。

在3D微调阶段，目标是增强模型的3D定位能力，同时尽可能保留其2D语义理解能力。为此，作者为原始的Q-Former添加了3D位置编码和时序模块。在该阶段，作者使用LoRA技术以较小的学习率微调视觉编码器和大语言模型，并以相对较大的学习率训练Q-Former3D。在这两个阶段中，OmniDrive-Agent的损失计算仅包括文本生成损失，而不考虑BLIP-2中的对比学习和匹配损失。

OmniDrive-nuScenes

为了对驾驶多模态大模型代理进行基准测试，作者提出了OmniDrive-nuScenes，这是一个基于nuScenes数据集的新型基准，包含高质量的视觉问答（QA）对，涵盖了3D领域的感知、推理和规划任务。

OmniDrive-nuScenes的亮点在于其完全自动化的QA生成流程，该流程使用GPT-4生成问题和答案。类似于LLaVA，作者的流程将3D感知的标注作为上下文信息提供给GPT-4。在此基础上，作者进一步利用交通规则和规划模拟作为额外输入，帮助GPT-4更好地理解3D环境。作者的基准不仅测试模型的感知和推理能力，还通过涉及注意力、反事实推理和开环规划的长时域问题，挑战模型在3D空间中的真实空间理解和规划能力，因为这些问题要求对未来几秒内的驾驶规划进行模拟以得出正确答案。

除了用于离线问答的生成流程外，作者还提出了一个在线生成多样化定位问题的流程。这个流程可以看作是一种隐含的数据增强方式，用于提升模型的3D空间理解和推理能力。

Offline Question-Answering

在离线QA生成流程中，作者使用上下文信息来生成nuScenes上的QA对。首先，作者使用GPT-4生成场景描述，并将三视角的前视图和三视角的后视图拼接成两幅独立的图像输入到GPT-4中。通过提示输入，GPT-4可以描述天气、时间、场景类型等信息，并识别各视角的方向，同时避免逐视角描述，而是以相对自车的位置描述内容。

接下来，为了让GPT-4V更好地理解交通元素之间的相对空间关系，作者将对象和车道线的关系表示成类似文件树的结构，并根据对象的3D边界框，将其信息转换成自然语言描述。

随后，作者通过模拟不同的驾驶意图生成轨迹，包括车道保持、左侧换道和右侧换道，并利用深度优先搜索算法将车道中心线连接起来，生成所有可能的行驶路径。此外，作者对nuScenes数据集中自车轨迹进行了聚类，选取具有代表性的驾驶路径，并将其作为模拟轨迹的一部分。

最终，通过对离线QA生成流程中的不同上下文信息进行组合，作者能够生成多种类型的QA对，包括场景描述、注意力对象识别、反事实推理和决策规划。GPT-4可以基于模拟和专家轨迹识别威胁对象，并通过对驾驶路径的安全性进行推理，给出合理的驾驶建议。

Online Question-Answering

为了充分利用自动驾驶数据集中的3D感知标注，作者在训练过程中以在线方式生成大量定位类任务。这些任务旨在加强模型的3D空间理解和推理能力，包括：

2D到3D定位：给定特定相机上的2D边界框，模型需要提供对应对象的3D属性，包括类别、位置、大小、朝向和速度。
3D距离：基于随机生成的3D坐标，识别目标位置附近的交通元素，并提供它们的3D属性。
车道到对象：基于随机选择的车道中心线，列出该车道上的所有对象及其3D属性。

Metrics

OmniDrive-nuScenes数据集涉及场景描述、开环规划和反事实推理任务。每个任务侧重不同的方面，难以使用单一指标进行评估。因此，作者针对不同的任务设计了不同的评估标准。

对于场景描述相关任务（如场景描述和注意力对象选择），作者采用常用的语言评估指标，包括METEOR、ROUGE和CIDEr来评估句子相似性。在开环规划任务中，作者使用碰撞率和道路边界交叉率来评估模型的性能。对于反事实推理任务，作者使用GPT-3.5提取预测中的关键字，并将这些关键字与真实情况进行比较，以计算不同事故类别的精确率和召回率。

实验结果

上表展示了对规划相关任务的消融研究结果，包括反事实推理和开环规划的性能评估。

完整模型，即Q-Former3D，在反事实推理和开环规划任务上都表现出色。在反事实推理任务中，模型在“红灯违规”和“可通行区域违规”类别上都展示了较高的精准率和召回率，分别为57.6%/58.3%和48.5%/58.6%。同时，该模型在“碰撞”类别中取得了最高的召回率（72.6%）。在开环规划任务中，Q-Former3D在平均碰撞率和路界交叉率上均表现出色，分别达到了3.79%和4.59%。

移除在线训练数据（No Online）后，反事实推理任务中的“红灯违规”类别召回率有所提高（65.6%），但整体性能略有下降。碰撞和可通行区域违规的精准率和召回率均较完整模型略低，而开环规划任务的平均碰撞率上升至4.93%，平均路界交叉率下降到4.02%，这反映出在线训练数据对于提高模型整体规划性能的重要性。

在架构消融实验中，Q-Former2D版本在“红灯违规”类别上取得最高精准率（58.3%）和较高召回率（61.1%），但其他类别的表现不如完整模型，特别是“碰撞”和“可通行区域违规”类别的召回率明显下降。在开环规划任务中，平均碰撞率和路界交叉率均高于完整模型，分别为3.98%和6.03%。

采用Dense BEV架构的模型在所有类别的反事实推理任务上均表现较好，但召回率整体偏低。开环规划任务中的平均碰撞率和路界交叉率分别达到了4.43%和8.56%。

当移除时间模块时（No Temporal），模型在反事实推理任务的表现显著下降，特别是平均碰撞率上升至6.07%，路界交叉率达到5.83%。

在感知监督方面，移除车道线监督（No Lane）后，模型在“碰撞”类别的召回率显著下降，而反事实推理任务的其他类别和开环规划任务的指标表现相对稳定。完全移除物体与车道线的3D感知监督（No Object & Lane）后，反事实推理任务各类别的精准率和召回率均有下降，特别是“碰撞”类别的召回率降至53.2%。开环规划任务中的平均碰撞率和路界交叉率分别升至6.77%和8.43%，显著高于完整模型。

从以上实验结果可以看出，完整模型在反事实推理和开环规划任务中表现出色。在线训练数据、时间模块以及车道线与物体的3D感知监督对模型性能的提升起到了重要作用。完整模型能够有效地利用多模态信息进行高效的规划与决策，而消融实验的结果进一步验证了这些组件在自动驾驶任务中的关键作用。

同时，来看NuScenes-QA的表现：展示了OmniDrive在开环规划任务中的性能，与其他现有方法进行了对比。结果显示，OmniDrive++（完整版本）在各项指标上均取得了最佳表现，尤其在开环规划的平均误差、碰撞率和路界交叉率三个方面均优于其他方法。

OmniDrive++的表现：OmniDrive++模型在1秒、2秒和3秒的预测时间内，L2平均误差分别为0.14、0.29和0.55米，最终平均误差仅为0.33米。此外，该模型的平均碰撞率和平均路界交叉率也分别达到了0.30%和3.00%，远低于其他方法。尤其在碰撞率方面，OmniDrive++在1秒和2秒的预测时间段内都实现了零碰撞率，充分展示了其出色的规划和避障能力。

与其他方法的对比：相较于其他先进的基准模型，例如UniAD、BEV-Planner++和Ego-MLP，OmniDrive++在所有关键指标上都表现优异。UniAD在使用高层级命令和自车状态信息的情况下，其L2平均误差为0.46米，而OmniDrive++在相同设置下的误差更低，为0.33米。同时，OmniDrive++的碰撞率和路界交叉率也比UniAD显著降低，尤其在碰撞率方面减少了近一半。

与BEV-Planner++相比，OmniDrive++在所有预测时间段内的L2误差均显著降低，尤其在3秒预测时间段内，误差由0.57米降至0.55米。同时，在碰撞率和路界交叉率方面，OmniDrive++也优于BEV-Planner++，碰撞率由0.34%降至0.30%，路界交叉率由3.16%降至3.00%。

消融实验：为了进一步评估OmniDrive架构中的关键模块对性能的影响，作者还比较了不同版本的OmniDrive模型的表现。OmniDrive（不使用高层级命令和自车状态信息）在预测误差、碰撞率和路界交叉率方面均明显逊于完整模型，尤其是在3秒预测时间段内的L2误差达到了2.84米，平均碰撞率高达3.79%。

当仅使用OmniDrive模型（无高层级命令和自车状态信息）时，预测误差、碰撞率和路界交叉率有所改善，但与完整模型相比仍有差距。这表明，整合高层级命令和自车状态信息对提高模型的整体规划性能具有显著作用。

整体而言，实验结果清晰地展示了OmniDrive++在开环规划任务上的卓越性能。通过整合多模态信息、高层级命令和自车状态信息，OmniDrive++在复杂的规划任务中实现了更精准的路径预测和更低的碰撞率与路界交叉率，为自主驾驶的规划与决策提供了强有力的支持。

讨论

作者提出的OmniDrive代理和OmniDrive-nuScenes数据集在多模态大模型领域引入了一种新的范式，能够解决3D环境中的驾驶问题，并为此类模型的评估提供了一个全面的基准。然而，每个新方法和数据集都具有其优点和不足之处。

OmniDrive代理提出了一种两阶段的训练策略：2D预训练和3D微调。在2D预训练阶段，通过利用LLaVA v1.5的图像文本配对数据集预训练Q-Former和carrier queries，实现了图像特征与大型语言模型之间的更好对齐。在3D微调阶段，引入了3D位置信息编码和时间模块，增强了模型的3D定位能力。通过利用LoRA对视觉编码器和语言模型进行微调，OmniDrive既保持了对2D语义的理解，又增强了对3D定位的掌握。这样分阶段的训练策略充分发挥了多模态大模型的潜力，使其在3D驾驶场景中具有更强的感知、推理和规划能力。另一方面，OmniDrive-nuScenes作为一种全新的基准，专门为评估驾驶大模型的能力设计。其完全自动化的QA生成流程通过GPT-4生成高质量的问答对，涵盖了从感知到规划的不同任务。此外，在线生成的定位任务也为模型提供了隐含的数据增强，帮助其更好地理解3D环境。该数据集的优势还在于它不仅测试模型的感知和推理能力，还通过长时域问题来评估模型的空间理解和规划能力。这种全面的基准为未来多模态大模型的研发提供了强有力的支持。

然而，OmniDrive代理和OmniDrive-nuScenes数据集也存在一些不足之处。首先，由于OmniDrive代理在3D微调阶段需要微调整个模型，训练资源需求较高，使得训练时间和硬件成本显著增加。此外，OmniDrive-nuScenes的数据生成完全依赖GPT-4，虽然保证了问题的质量和多样性，但也导致生成的问题更倾向于自然语言能力强的模型，这可能使模型在基准测试时更依赖于语言特性而非实际驾驶能力。尽管OmniDrive-nuScenes提供了一个全面的QA基准，但其覆盖的驾驶场景仍然有限。数据集中涉及的交通规则和规划模拟仅基于nuScenes数据集，这使得生成的问题难以完全代表现实世界中的各种驾驶场景。此外，由于数据生成流程的高度自动化，生成的问题难免会受到数据偏见和提示设计的影响。

结论

作者提出的OmniDrive代理和OmniDrive-nuScenes数据集为3D驾驶场景中的多模态大模型研究带来了新的视角和评估基准。OmniDrive代理的两阶段训练策略成功地结合了2D预训练和3D微调，使得模型在感知、推理和规划方面均表现出色。OmniDrive-nuScenes作为全新的QA基准，为评估驾驶大模型提供了全面的指标。然而，仍需进一步研究以优化模型的训练资源需求，改进数据集的生成流程，并确保生成的问题能够更准确地代表现实驾驶环境。总体而言，作者的方法和数据集在推进驾驶领域多模态大模型研究方面具有重要意义，为未来的工作奠定了坚实基础。