HiP-AD：用于单解码器自动驾驶的可变形注意分层多粒度规划

三谷秋水

于 2025-05-04 00:15:00 发布

阅读量577

点赞数 10

分类专栏：计算机视觉自动驾驶机器学习文章标签：自动驾驶人工智能机器学习计算机视觉

本文链接：https://blog.csdn.net/yorkhunter/article/details/147676438

版权

机器学习同时被 3 个专栏收录

534 篇文章

订阅专栏

计算机视觉

424 篇文章

订阅专栏

自动驾驶

159 篇文章

订阅专栏

25年3月来自 Nullmax 自动驾驶公司的论文“HiP-AD: Hierarchical and Multi-Granularity Planning with Deformable Attention for Autonomous Driving in a Single Decoder”。

尽管端到端自动驾驶 (E2E-AD) 技术近年来取得了显著进展，但在闭环评估方面的表现仍然不尽人意。在查询设计和交互中利用规划的潜力尚未得到充分挖掘。本文介绍一种多粒度规划查询表示，它集成异构航路点，包括跨各种采样模式的空间、时间和驾驶风格航路点。它为轨迹预测提供额外的监督，增强对自身车辆的精确闭环控制。此外，明确利用规划轨迹的几何特性，通过可变形注意机制根据物理位置有效地检索相关图像特征。通过结合这些策略，提出一种端到端自动驾驶框架 HiP-AD，它在统一的解码器中同时执行感知、预测和规划。HiP-AD 通过允许规划查询在 BEV 空间中与感知查询进行迭代交互，同时从透视图中动态提取图像特征，实现全面的交互。

如图所示，先前的 E2E 自动驾驶方法 [16, 23, 48, 49, 59] 在开环基准 nuScenes [2] 中表现出色，碰撞率（越低越好），有些方法甚至可达到 0.1%。

请添加图片描述

然而，这些方法在综合闭环评估数据集 Bench2Drive [21] 上的成功率表现不佳，仍然低于 35%。即使仅关注紧急制动，尽管开环碰撞率已低至 0.1%，但成功率仍然不足，低于 55%。

与传统的独立或多任务范式 [11, 40, 51] 不同，端到端自动驾驶方法通过应用集成感知、预测和规划任务的统一流程来减轻潜在的累积误差。例如，UniAD [16] 开创性地将各种任务集成到单个模型中。VAD [6, 23] 将场景表示简化为矢量化元素，提高了效率和鲁棒性。PPAD [7] 制定了一个分层动态关键目标注意机制，以交错和自回归的方式对交互进行建模。SparseAD [58] 和 SparseDrive [49] 并未构建密集的 BEV 特征，而是利用基于稀疏查询的框架，从而实现更高的效率和更准确的结果。基于这种方式，DiFSD [48] 通过几何信息以从粗到细的方式迭代细化自我轨迹。与顺序方案相比，Para-Drive [54] 采用并行方法，同时执行感知和规划任务，以提升性能。DriveTransformer [22] 进一步将这些任务集成到单个 Transformer 中，并在闭环系统中取得优异的性能。此外，生成式框架 [31, 59] 和大语言模型 [38, 43, 46] 为决策和规划提供创新视角，并日益受到该领域的关注。

大多数方法 [16, 22, 23, 54, 58] 将 E2E自动驾驶制定为轨迹回归（图（a））进行稀疏监督的模仿学习任务，主要关注轨迹拟合本身而不是闭环控制。相反，面向闭环的方法 [9, 18, 42, 45] 遇到其他一些挑战，例如非凸问题 [6] 和转向误差 [43]。CarLLaVA [43] 将标准航路点解耦为时间条件和空间条件航路点以进行纵向和横向控制，极大地缓解这些问题，如图（b）所示。然而，它建立在一个预训练的大语言模型之上，没有中间感知结果，缺乏可解释性，也没有研究轨迹的多样化。

请添加图片描述

本文提出一种用于 E2E在自动驾驶的多粒度规划查询表示和分层航路点预测，如上图 (c-d) 所示。具体而言，将航路点分解为时间、空间（路径）和驾驶风格航路点预测，并给出相应的规划查询。此外，进一步将每种类型的航路点多样化为具有不同采样策略的多个粒度，例如频率、距离和速度，从而丰富训练期间的额外监督。它们可以有效地聚合以促进不同特征之间的相互作用。因此，稀疏航路点提供全局信息，而密集航路点输出更适合细粒度控制。此外，多粒度显著减少自我犹豫问题，即在某些情况下自车一直等待，直到闭环模拟时间耗尽。它鼓励在复杂场景（例如交通标志、超车）下进行行为学习，而无需引入因果线索。

HiP-AD 的整体网络架构如图所示。它由一个主干网、一个特征金字塔网络 (FPN) 模块（用于从多视角图像 {I_i} 中提取多尺度特征 {F_i}）和一个带有各种特定任务头的统一解码器组成。统一解码器将混合任务锚点和查询作为输入，它们由智体查询 Q_a、地图查询 Q_m 和规划查询 Q_p 连接而成，其中 N 表示查询数量，C 表示特征通道大小。智体查询对应于目标检测和运动预测，而地图和多粒度规划查询管理在线地图绘制和轨迹预测。检测和运动预测头以及地图和规划头预测各自的任务。规划头输出时间、空间和驾驶风格航路点，用于自车辆控制。此外，排名靠前的 k_a、k_m、k_p 更新查询存储在内存中，以供后续时间交互使用。

请添加图片描述

如上图所示以及下图的详细内容所示，统一解码器由三个模块组成：时间交互模块、协作交互模块和任务可变形聚合模块。每个模块分别用于促进时间、跨任务和任务-图像交互。每个输入任务查询都与相应的锚点相关联。智体查询使用框锚点 A_a，而地图查询使用折线锚点 A_m，它们通过聚类算法初始化，其中 D 表示锚点维度。还将规划查询建模为折线锚点 A_p，并使用其 T 个未来航路点。

请添加图片描述

时间交互。时间交互模块在当前任务的特征与历史任务的特征之间建立通信，这些特征通过 Top K 选择机制从先前的推理框架中保留下来。如上图左下角所示，针对每个任务的时间交互，引入三种不同的交叉注意机制，以及一种额外的交叉注意机制，用于增强规划查询和时间感知查询之间的交互，并重点关注历史周边元素。

协作交互。协作交互模块支持跨任务交互。它包含三种独立的自注意机制，每种机制专用于一项任务，以及一个统一的自注意模块，用于跨任务交互。没有使用全局注意机制，而是为每个查询对构建一个几何注意图，以关注局部和相关元素。以感知查询为例，遵循 [34] 的方法，通过缩放距离作为注意权重，动态调整 BEV 感受野。

类似地，扩展最小距离的计算，通过结合地图-智体、地图-地图以及智体-地图锚点之间的交互来生成注意权重。对于规划查询，没有距离限制，允许它们访问来自所有任务的信息。

任务可变形注意机制。与以前的研究 [22] 使用全局注意与所有多视角图像特征交互不同，利用单独的可变形注意模块来采样针对每个任务查询定制的局部稀疏特征。具体而言，通过相机参数将任务锚点投影到多视角图像上，就像 [33, 49] 中所使用的那样。对于规划，将参考航路点分布在各种预定义的高度值上，然后将它们投影到多视角图像上。为了采样相邻点的特征，使用多个 MLP，根据投影的参考点学习空间偏移和相关权重。规划可变形注意 (PDA) 的过程十分简单明了，它整合未来轨迹周围的特征来学习稀疏场景表示，从而避免潜在的碰撞。

分层航路点。与以往的航路点设计 [23, 43] 不同，不仅利用时间和空间航路点，还引入驾驶风格航路点。与时间航路点类似，驾驶风格航路点进一步整合速度，以学习复杂环境中的自我行为。此外，还采用多重采样策略，以实现丰富的轨迹监督和精确控制。该策略结合空间航路点的密集和稀疏间隔、时间和驾驶风格航路点的高低频，并进一步融合驾驶风格航路点的不同速度。

因此，稀疏-间隔的航路点提供更广泛的全局背景，有助于高级决策，而密集-间隔的航路点则支持细粒度控制，以实现精确操控。时间和空间航路点以及高低频和密集-稀疏间隔采样策略相互补充，有助于实现更稳健、更有效的规划。此外，不同速度的驾驶风格航路点，能够提供对超车或紧急制动等场景的丰富理解，从而在闭环评估中提供灵活的纵向控制。

多粒度规划查询。构建多粒度规划查询来预测这些异构航路点。如图所示，共有 N_g 个粒度，包括时间、空间和驾驶风格规划查询，采样策略的数目分别为 n_t、n_s、n_d × n_t。每个粒度规划查询包含 N_m 个模态，分别表示左转、直行、右转等轨迹。多粒度规划查询的总数为 N_p = N_m × N_g，其中 N_g = n_t + n_s + n_d × n_t。

通过统一解码器处理后，单一模态中不同粒度的规划查询将被对齐并聚合，从而创建融合查询，从而增强信息互补性和整体有效性。融合查询用于预测所有粒度的航路点，并利用额外的监督来优化轨迹。

使用 N_g 个 MLP_reg 层对不同粒度的航路点 W^i,j 进行回归，同时所有粒度共享同一个模态得分层 MLP_cls-m，其中模态得分 S_m 用于推理步骤以选择最佳模态。此外，最终的航路点选择将使用一个驾驶风格分类头。

对齐匹配。在训练过程中，每个查询组（包含特定粒度的所有模态）采用“赢者通吃”的匹配方法，以选择最佳模态进行优化。不再对每组航路点进行独立匹配，而是引入一种对齐匹配策略，该策略指定一组航路点作为参考航路点 W^i,ref，并指定其对应的真值 GT^ref 进行匹配。
然后，所有其他组共享相同的匹配结果，以便与其余查询组上匹配的规划模态对齐。因此，可以有效地反向传播最优匹配模态所有粒度的梯度。

基于此机制，在对齐匹配之后选择驾驶风格航路点。每个驾驶风格航路点负责一个速度区域。与在所有粒度上进行优化的空间或时间航路点不同，只选择一个粒度的驾驶风格航路点进行优化，确保每个粒度的航路点都能学习与各种复杂驾驶场景相对应的动作。此过程由时间航路点的真值（GT）提供信息。

选择。在推理步骤中，最终的航路点通过两步选择过程计算得出。首先，根据预测的模态得分 S_m 选择最佳模态。其次，根据预定义规则选择特定粒度的航路点：空间航路点选择密集间隔，时间粒度优先选择高频航路点。对于驾驶风格航路点，选择基于预测风格分类中的最高得分。

控制。与 CarLLaVA [43] 类似，采用空间航路点进行横向控制。对于纵向控制，首先评估计算出的驾驶风格航路点的速度，以确保它们与所选驾驶风格相关的预定义速度范围保持一致。如果速度一致，则使用驾驶风格航路点控制自身车辆；否则，纵向控制将恢复为使用时间航路点。

HiP-AD 可以以完全可微分的方式进行端到端训练和优化。整体优化功能包含四个主要任务（检测、运动预测、建图和规划）。每个主要任务都可以使用分类和回归损失函数及其相应的权重进行优化。其中规划损失函数由多粒度航路点回归损失函数以及结合模态和驾驶风格的分类损失函数组成。

采用 ResNet50 作为骨干网络，并包含 6 个解码器层，在 Bench2Drive 中使用 640 × 352 的输入分辨率，该数据集作为实验的默认数据集。为混合任务查询设定固定数量，包括 900 个智体、100 张地图和 480 个规划查询。每个规划查询包含 48 个模态，每个模态有 10 个粒度。这些粒度包括以 2 米和 5 米的均匀间隔采样的空间航路点、以 2Hz 和 5Hz 的频率采样的时间航路点，以及在三个速度范围内手动划分的驾驶风格：[0, 0.4)、[0.4, 3) 和 [3, 10) 米/秒，每个速度范围都有两个频率设置。目标点和高级命令通过多层感知器 (MLP) 嵌入到规划头中，而自我状态则被排除在输入之外。

训练过程包含两个阶段。最初，禁用驾驶风格头 12 个 epoch，然后在启用驾驶风格头的情况下进行 6 个 epoch 的微调。在 8 块 NVIDIA 4090 GPU 上训练模型，总批次大小为 32。使用 AdamW 优化器和余弦退火调度器，初始学习率为 2 × 10−4，权重衰减为 0.01。在 nuScenes 数据集上使用类似过程进行训练。

所有多粒度航路点的真值 (GT) 均来自自车的未来轨迹，主要区别在于采样方法或策略。例如，收集单个视频中自车的所有未来位置，并应用线性拟合获得轨迹函数。然后，可以以任意相等的距离间隔从该函数中采样，以获得空间航路点的真值。相比之下，时间和驾驶风格预测具有相同的时间航路点真值，该航路点以相等的时间间隔直接从未来位置采样。