FusionAD:用于自动驾驶预测和规划任务的多模态融合方法

23年8月来自西湖大学、有鹿机器人公司、菜鸟和阿里的论文“FusionAD: Multi-modality Fusion for Prediction and Planning Tasks of Autonomous Driving”。

构建一个多模态多任务神经网络实现准确和稳健的性能,是自动驾驶感知任务的事实标准。然而,利用来自多个传感器的数据来联合优化预测和规划任务在很大程度上仍未被探索。 FusionAD,是一个融合来自两个最关键的传感器(摄像头和激光雷达)信息的统一框架,超越感知任务。具体来说,首先构建一个基于Transformer的多模态融合网络来有效地产生基于融合的特征。与基于摄像头的端到端方法 UniAD 相比,建立一个融合辅助模态-觉察预测和状态-觉察(status- aware)规划模块,称为 FMSPnP,其利用多模态特征。对常用的基准 nuScenes 数据集进行大量实验,FusionAD 实现最先进的性能,在检测和跟踪等感知任务上平均超过基线 15%,在占用预测准确度上超过基线 10%,ADE 分数的预测误差从 0.708 降低到 0.389,碰撞率从 0.31% 降到仅 0.12%。

如图所示比较自动驾驶系统的不同设计流程。(上)自动驾驶系统的一种常见做法,包括感知、预测和规划任务。每个任务都是一个独立的任务模块,具有自己的输入和输出定义,模块之间的转换通常需要不可微分的操作,并阻止系统以端到端方式进行优化。(中)它指的是最近端到端以视觉为中心的系统,该系统学习感知、预测和规划任务[1]。(下)FusionAD,这是一个多模态和多任务端到端学习框架,可以联合优化感知、预测和规划任务。

请添加图片描述

BEV 感知

鸟瞰 (BEV) 感知方法在自动驾驶中因感知周围环境而受到关注。基于摄像头的 BEV 方法将多视角摄像头图像特征转换到 BEV 空间,实现端到端感知,而无需后处理重叠区域。LSS [11] 和 BEVDet [12] 使用基于图像的深度预测来构建视锥体并提取图像 BEV 特征以进行地图分割和 3D 目标检测。在此基础上,BEVdet4D [13] 和 SoloFusion [14] 通过将当前帧 BEV 特征与对齐的历史帧 BEV 特征相结合来实现时间融合。BEV-Former [8] 使用时空注意和Transformer来获得时间融合的图像 BEV 特征。这些方法提高对动态环境的理解并增强感知结果。

然而,基于摄像头的感知方法存在距离感知精度不足的问题。LiDAR 可以提供准确的位置信息,但其点很稀疏。为了解决这个问题,一些先前的方法 [2]、[15] 探索融合多模态数据对感知的好处。BEV 是基于 LiDAR 的感知算法 [16]、[17] 中的常见视角,将多模态特征转换为 BEV 空间有助于融合这些特征。BEV-Fusion [6]、[7] 将通过 LSS [11] 方法获得的图像 BEV 特征,与通过 Voxelnet [18] 获得的 LiDAR BEV 特征连接起来,以获得融合的 BEV 特征,从而提高感知性能。SuperFusion [18] 进一步提出基于多模态地图感知的多阶段融合。

运动预测

继 VectorNet [19] 成功之后,主流运动预测(或轨迹预测)方法通常利用高清地图和基于矢量的障碍物表示来预测智体的未来轨迹。在此基础上,LaneGCN [20] 和 PAGA [21] 通过改进的地图特征(例如车道连接属性)增强轨迹地图匹配。此外,某些基于锚点的方法 [22]、[23] 在地图附近采样目标点,从而实现基于这些点的轨迹预测。然而,这些方法严重依赖预先收集的高清地图,因此不适用于没有地图的区域。

矢量化预测方法通常缺乏高级语义信息,并且需要高清地图,因此,最近的研究开始使用原始感官信息进行轨迹预测。PnPNet [24] 提出一种跟踪模块,可以从检测中在线生成目标轨迹,并利用轨迹级特征进行运动预测,但它们的整体框架基于 CNN,运动预测模块相对简单,只有单模输出。随着Transformer在检测[25]和跟踪[26]中的应用,VIP3D[27]成功借鉴前人的工作,提出一个基于Transformer的联合感知-预测框架。UniAD[3]进一步融入更多的下游任务,提出一个面向规划的端到端自动驾驶模型。

规划学习

模仿学习(IL)和强化学习(RL)已被用于规划[28]。IL和RL可以用于端到端方法[29]、30或矢量化方法[31]、32。尽管使用中间感知结果进行规划可以提高泛化能力和透明度,但矢量化方法会受到后处理噪声和感知结果变化的影响。早期的端到端方法,如 ALVINN [33] 和 PilotNet [34] 通常直接输出控制命令或轨迹,而缺少中间结果/任务。相反,P3 [35]、MP3 [4]、UniAD [3] 学习一个端到端可学习网络,执行联合感知、预测和规划,这可以产生可解释的中间表示并提高最终规划性能。然而,它们要么只使用激光雷达输入​​ [4]、[35],要么只使用摄像头输入 [3],这限制了它们的性能。Transfuser [36] 同时使用激光雷达和摄像头输入,但不在 BEV 空间中,并且只执行一些 AD 学习任务作为辅助任务。

FusionAD 的整体网络架构如图所示。首先,使用基于 BEVFormer 的图像编码器将摄像机图像映射到鸟瞰图 (BEV) 空间。然后将它们与 BEV 空间中的激光雷达特征相结合。在时间融合之后,融合的 BEV 特征通过基于查询的方法用于检测、跟踪和映射任务。随后,将tokens转发到运动和占用预测任务以及规划任务。融合-辅助的模态-觉察预测和状态-觉察规划模块简称为 FMSPnP。

请添加图片描述

BEV 感知和编码器

受 FusionFormer [37] 的启发,提出一种基于 Transformer 架构的多模态时间融合框架,用于 3D 目标检测。为了提高效率,采用一种类似于 BEVFormer 的递推时间融合技术。与 FusionFormer 不同,用 BEV 格式的特征作为 LiDAR 分支的输入,而不是体素特征。

多模态时间融合模块,包含 6 个编码层。首先使用一组可学习的 BEV 查询器分别使用点交叉注意和图像交叉注意融合 LiDAR 特征和图像特征。然后,通过时间自注意将得到的特征与前一帧的历史 BEV 特征融合。查询由前馈网络更新,然后用作下一层的输入。经过 6 层融合编码后,为后续任务生成最终的多模态时间融合 BEV 特征。

首先对原始 LiDAR 点云数据进行体素化,然后基于 SECOND 网络生成 LiDAR BEV 特征。同时,通过主干网络处理多视角相机图像以进行特征提取。之后,采用 FPN 网络生成多尺度图像特征。

在点交叉注意过程中,每个 BEV 查询仅与其相应参考点周围的 LiDAR BEV 特征交互。这种相互作用使用可变形注意实现。为了实现图像交叉注意,采用与 BEVFormer 类似的方法。每个 BEV 查询都以与 Pillar 表示类似的一个高度维度展开。在每个Pillar中沿其 Z 轴采样固定数量的 N/ref 3D 参考点。

还利用 BEVFormer 的见解来实现时间自注意。具体来说,该方法涉及根据车辆在帧之间的运动对历史帧 BEV 特征进行时间对齐。然后,利用时间自注意来融合历史帧 BEV 特征。

由于对预测和规划增强感兴趣,对于感知中的检测、跟踪和映射任务,主要遵循 UniAD [3] 中的设置。

预测

得益于更具信息量的 BEV 特征,预测模块获得更稳定、更细粒度的信息。在此基础上,为了进一步捕捉多模态分布并提高预测精度,引入模态自注意和细化网络。设计细节如图所示:

请添加图片描述

在 UniAD [3] 中,数据集级统计上锚点用于辅助多模态轨迹学习,并应用锚点间自注意来提高锚点的质量。然而,由于这些锚点不考虑历史状态和地图信息,它们对多模态学习的贡献有限。在运动查询检索所有场景上下文以捕获智体-智体、智体-地图和智体-目标点信息后,引入模式自注意以实现各种模式之间的相互可见性,从而提高质量和多样性。

可变形注意使用统计上锚点作为参考轨迹与 BEV 特征交互。如前所述,由于需要特定的场景信息,这种参考轨迹增加后续学习的难度。引入一个细化网络,使用 Motionformer 生成的轨迹作为更准确的空间先验,查询场景上下文,并在此阶段预测真实轨迹与先验轨迹之间的偏移量。

规划

在评估过程中,无法访问高清 (HD) 地图或预定义路线。因此,依靠可学习的命令嵌入来表示导航信号(包括左转、右转和保持前进)以指导方向。为了获得周围嵌入,将由自我查询和命令嵌入组成的规划查询输入到鸟瞰 (BEV) 特征中。然后,将其与由 MLP 网络处理的自车嵌入融合以获得状态嵌入。然后将此状态嵌入解码为未来航路点 τˆ。

为了确保安全,在训练期间,除了简单的模仿 L2 损失之外,还加入可微分的碰撞损失松弛 [38]。如图展示完整的设计。

请添加图片描述

此外,在推理过程中,为了进一步确保轨迹的安全性和平滑性,使用牛顿法 [3] 和占用预测模型的占用预测结果进行轨迹优化。

训练

利用三阶段训练进行多传感器、多任务学习。对于第一阶段,只训练 BEV 编码器和感知任务;对于第二阶段,修复 BEV 编码器并训练感知、预测和规划任务;而对于可选的第三阶段,进一步训练占用和规划任务,同时修复所有其他组件。

在 A100 GPU 集群上进行所有实验,利用 32 个 A100 GPU 进行实验训练。用 nuScenes 数据集 [10],其中包含在波士顿和新加坡拍摄的 1000 个驾驶场景。每个场景持续约 20 秒,nuScenes 提供 140 万个 3D 边框的庞大集合,涵盖 23 个不同类别,采样率为 2Hz。采用可用的摄像头、激光雷达和 canbus 数据。对于超参,对激光雷达点云使用 0.075 × 0.075 × 0.2m;对图像使用 1600 × 900 的分辨率;BEV 大小为 200 × 200;用 AdamW 优化器,起始学习率为 2e−4,使用 1000 次迭代的预热并使用余弦退火调度;由于 GPU 内存消耗较高,因此批次大小为 1;第一阶段的队列大小为 5,第二和第三阶段的队列大小为 3。

遵循 [1] 来评估端到端自动驾驶任务的性能。具体来说,对于感知任务的指标,用 mAP 和 NDS 来评估检测任务,使用 AMOTA 和 AMOTP 来评估跟踪任务,使用 IoU 来评估建图任务。

为了评估预测和规划任务,采用常用指标,例如端到端预测准确率 (EPA)、平均位移误差 (ADE)、最终位移误差 (FDE) 和缺失率 (MR) 来评估运动预测的性能。对于未来占用率预测,使用 FIERY [39] 中的未来视频全景质量 (VPQ) 和近距离(30 × 30 米)和远距离(100 × 100 米)范围的 IoU 指标。采用位移误差(DE)和碰撞率(CR)来评估规划性能,其中碰撞率被视为主要指标。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值