24年8月来自新加坡国立大学和Moovita Pte公司的论文“DRAMA: An Efficient End-to-end Motion Planner for Autonomous Driving with Mamba”。
运动规划是一项具有挑战性的任务,需要在高度动态和复杂的环境中生成安全可行的轨迹,这是自动驾驶汽车的一项核心能力。本文提出 DRAMA,一个基于 Mamba 的端到端自动驾驶汽车运动规划器。DRAMA 融合摄像头、特征空间中的激光雷达鸟瞰图图像以及自车状态信息,生成一系列未来的自我轨迹。与传统的基于 Transformer 的方法(注意计算复杂度为其序列长度二次项)不同,DRAMA 能够实现计算密集度较低的注意复杂度,显示出处理日益复杂场景的潜力。利用 Mamba 融合模块,DRAMA 可以高效地融合摄像头和激光雷达模态的特征。此外,引入 Mamba-Transformer 解码器,可提高整体规划性能。该模块普遍适用于任何基于 Transformer 的模型,尤其是对于具有长序列输入的任务。进一步引入一种特征状态丢弃(dropout)方法,它可以在不增加训练和推理时间的情况下提高规划器的鲁棒性。
几十年来,运动规划一直是机器人领域的热门研究课题。作为自动驾驶堆栈的核心模块,运动规划器主要负责为自动驾驶汽车 (AV) 生成未来执行的安全可行轨迹。然而,由于包括但不限于对其他道路使用者意图的准确预测、对交通标志和信号的理解、道路拓扑复杂性的编码以及对其他不可预见障碍物和风险的中间反应等因素,获得可靠、高效的轨迹规划具有挑战性。
根据所使用的不同方法,现有的自动驾驶汽车运动规划器可分为两大类:基于规则和基于学习。传统的基于规则规划器可以在大多数驾驶场景中始终表现良好,但需要针对特殊情况进行刻意微调。为了实现更好的可扩展性和通用性,研究人员最近采用基于学习的方法。受到 Transformers 在各种运动预测模型 [23,28,38,29,30,31] 中出色表现的启发,研究人员探索将 Transformers 与其他基础模型(如 CNN、RNN、LSTM 和 [18,20,17,4])一起用于运动规划任务,利用其在吸收拓扑地图信息和建模智体间复杂交互方面的卓越能力。
将预测任务中的方法直接应用到规划任务中,尽管已经被证明是可行的,但由于基于 Transformer 主干网络中注意计算的二次项成本,这些方法通常会受到密集计算的影响。为了提高推理速度和规划性能,研究人员尝试改进模型架构并提出新的训练技术,挖掘基于 Transformer 模型的潜力。然而,实现更可靠、更稳健、更高效的规划能力需要更强大的主干网络,而新的基础模型往往能为模型提供更大的潜力。最近,Mamba [11,6] 被提出作为一种更先进的基础模型,它在各种下游任务中表现出了卓越的效率和准确性 [39,34]。
如图是提出的DRAMA规划器流水线:DRAMA 使用 Mamba Fusion 模块在特征空间中组合摄像头和 激光雷达 BEV 图像。最终的融合特征与自车状态连接并传递到解码器中,解码器使用多个 Mamba-Transformer 解码器层输出用于 AV 导航的确定性轨迹。
结构化状态空间序列模型 (S4) 源自连续系统,利用一维输入序列或函数 x(t) 和中间隐藏状态 h(t) 产生最终输出 y(t) 。中间隐藏状态 h(t) 和输入 x(t) 用于通过投影矩阵 A、B 和 C 计算 y(t) 如下所示
该系统应用可学习的步长∆和零阶保持(ZOH)将连续系统转换为离散系统。因此,方程(1)可以重新表述如下:
通过数学归纳法,方程(2)的最终输出可以重写为
其中矩阵M定义如下:
其中 A 表示从 At 到 As 的矩阵乘积,索引 j 和 i 分别表示第 j 和第 i 个 A、B 和 C矩阵。
下三角SSM变换矩阵M,如方程(4)所述,也满足N序列半-可分(SSS)表示的定义。因此,SSM和SSS表示是等价的。
因此,SSS的结构化矩阵乘法可以有效地用于涉及SSM的计算。该方法首先利用结构化掩码注意 (SMA) 二次模式算法和 SMA 线性模式算法 [6] 将参数矩阵 M 分解为对角块和低秩块,并引入多头注意 (MHA) 来提升模型性能。
为了捕捉不同模态的多尺度上下文,先前的基线 [4] 在 Transformer 中实现了自注意层,以融合和利用来自激光雷达和相机的特征。首先,对两种模态的特征进行转换和连接,生成组合特征 I。然后,I 与三个不同的投影矩阵 MQ、MK 和 M V 相乘,得到 Q、K 和 V。融合模块的最终输出可以通过以下方式计算:
整体训练计算复杂度由以下公式给出:
其中 T 和 D 分别表示输入的长度和维度。建议使用 Mamba 作为自注意的替代方案进行特征融合,因为它具有高效的矩阵计算能力。遵循 [4] 中实现的融合方法,如图 Mamba Fusion 模块所示。与 [4] 不同,用 Mamba-2 而不是 Transformer 来处理融合的特征。由于没有传统 Transformer 自注意中存在的复杂计算,Mamba 的计算成本显著降低。假设头部维度 P 等于状态维度 D,即 P = D,则训练成本由下式给出:
在Mamba Fusion 模块中,设置 T = 320 和 P = 16,理论上与自注意相比,融合过程中的训练成本减少约 20 倍。
Mamba Transformer Decoder 如图所示:结合 Mamba 和 Transformer 架构来开发 Mamba-Transformer (MT) 解码器。首先,可学习的查询被传递到 MT 的 Mamba 组件中,其功能类似于自注意。由于与 Mamba 的交叉注意仍未得到充分探索,采用 Transformer 交叉注意机制来关注来自 Mamba 的查询以及来自 FSD 模块的K和V。
为了捕捉多尺度图像特征,采用多尺度卷积设计,如图所示,其中图像通过三个卷积层进行处理,卷积核大小分别为 5、7 和 9。这些卷积层的输出被组合起来,并由多层感知器 (MLP) 层进一步编码,以增强模型的感知能力。
由于硬件限制和车载传感器的噪声,对周围环境的观察和感知(如位置或速度)可能不准确,可能无法完全反映真实情况。此外,当导航模块缺少驾驶指令或在人类指令可能不是最理想的复杂交通条件下行驶时,即使在没有明确指导的情况下,模型也必须深入理解和推理场景和周围的智体。先前的研究 [14,2] 表明,掩码某些图像和车辆状态特征可以提高自监督任务和运动规划的整体性能。为了解决这些问题并基于这些见解,实现特征状态丢弃(dropout),用于从两个模态和自车状态进行图像特征融合,如图所示。首先,使用可学习的位置嵌入添加要编码的特征,然后使用差分丢弃(dropout)来掩码某些特征。
差分丢弃策略,对融合和自车状态特征应用了不同的丢弃率。为融合特征分配相对较低的丢弃率以保持其完整性。此措施旨在避免融合感知信息的过度丢失,从而降低整体性能。
实验设置如下。使用 NVIDIA RTX3090Ti GPU 通过标准数据集(所有场景)训练、验证和测试模型,总批次大小为 32,跨越 30 个epochs。对于优化器,使用 AdamW,将学习率和权重衰减设置为 1e-4 和 0.01。对前左视图和前右视图的摄像头图像进行中心裁剪,然后与前视图图像连接以创建 256 × 1024 像素的图像输入。激光雷达 BEV 图像是通过将 激光雷达点投影到 BEV 平面上生成的。仅使用当前时间步长的摄像头和激光雷达图像作为输入,而不合并任何先前帧或应用数据增强。输入数据还结合了当前自车的状态,包括速度、加速度和来自导航模块的驾驶命令,例如转弯、变道和跟车。最终输出包括 4 秒内的 8 个航路点轨迹,以 2 Hz 的频率采样,每个航路点由 x、y 和航向坐标指定。
如图所示DRAMA 在不同场景中的规划结果可视化:(a)礼让行人(b)变道超车(c)弯道变道(d)进入停车区(e)等红灯(f)离开停车区(g)在路口转弯(h)跟车时转弯。