利用潜世界模型增强端到端自动驾驶

硅谷秋水

于 2024-07-30 00:09:59 发布

阅读量761

点赞数 18

分类专栏：自动驾驶大模型计算机视觉文章标签：自动驾驶人工智能机器学习

本文链接：https://blog.csdn.net/yorkhunter/article/details/140622913

版权

大模型同时被 3 个专栏收录

368 篇文章 1 订阅

订阅专栏

自动驾驶

86 篇文章 1 订阅

订阅专栏

计算机视觉

79 篇文章 0 订阅

订阅专栏

24年6月来自中科院自动化所、中科大和中科院香港创新研究院的论文“Enhancing End-to-End Autonomous Driving with Latent World Model”。

端到端自动驾驶引起了广泛关注。当前的端到端方法很大程度上依赖于感知任务（例如检测、跟踪和地图分割）的监督来帮助学习场景表征。然而，这些方法需要大量注释，从而阻碍了数据的可扩展性。为了应对这一挑战，提出了一种自监督方法来增强端到端驾驶，而无需昂贵的标签。具体来说，框架 LAW 使用 LAtent World 模型根据预测的自我动作和当前帧的潜特征来预测未来的潜特征。预测的潜特征由未来实际观测的特征监督。这种监督共同优化了潜特征学习和动作预测两个过程，从而大大提高了驾驶性能。

传统规划器无法访问原始传感器数据。这会导致信息丢失和错误积累 [15, 22]。相比之下，端到端规划器处理传感器数据以直接输出规划决策，这显示出进一步探索的有前途的领域。

一些端到端方法 [35, 4, 40] 不采用感知任务，仅从记录的驾驶视频和轨迹中学习。这些方法可以利用大量可用数据，使其成为一个有前途的方向。然而，仅使用有限的轨迹指导会使网络难以学习有效的场景表示并实现最佳驾驶性能。

如图所示先前的辅助任务与潜预测任务之间的比较。虽然 (a) 中的先前工作依赖于具有大量注释的辅助感知任务，但端到端的任务目标是通过 (b) 中的潜世界模型来增强端到端驾驶模型。在训练期间，从未来帧中获得潜特征，以联合监督当前帧的潜特征和预测轨迹。（Seg. = 分割）

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9mn7zjIY-1722269366445)(https://i-blog.csdnimg.cn/direct/8f7b49baa5b44fb5a0769570ac0840b9.png)]

在端到端自动驾驶任务中，目标是以航路点形式估计自车的未来轨迹。正式地，让 It = {I1t , I2t , . . . , INt } 为时间步 t 捕获的 N 个周围多视图图像集。期望模型预测航路点序列 Wt ={wt1,wt2,…,wtM}，其中每个航路点 wti = (xit, yti) 表示自车在时间步 t + i 预测的 BEV 位置。M 表示模型旨在预测的自车辆未来位置数。

世界模型在自动驾驶任务中，旨在根据当前状态和动作预测未来状态。具体来说，让 Ft 表示在时间步 t 从当前帧中提取的特征，Wt ={wt1,wt2,…,wtM} 表示规划器规划的航点序列，世界模型使用 Ft 和 Wt 预测未来帧的特征 Ft+1。

如图所示整个端到端框架：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JCZR3DEx-1722269366448)(https://i-blog.csdnimg.cn/direct/28548c8f523b4e2d9f2e02d38c1b1776.png)]

整个端到端总体方法分为三个部分。首先是一个通用的端到端规划器来提取潜特征。接下来，基于端到端规划器引入一个世界模型来预测潜特征。最后，预测的潜特征可以替代一些不重要的潜特征，其中采用一种视图选择方法。

端到端规划器

最初，通过图像主干，处理 N 个视图图像以提取它们各自的特征表示。按照 PETR [25]，为这些图像特征生成 3D 位置嵌入。这些位置嵌入与图像特征集成，唯一地标识每个视图。丰富的图像特征表示为 F = {f1，f2，…，fN}。

然后，采用视图注意机制将 F 压缩为观察的视图潜特征 V。在这里，用术语“观察的”来区分这个视图潜特征与其他视图潜特征。具体来说，对于 N 个视图，有 N 个可学习的视图查询 Qview = {q1view，q2view，…，qNview}。每个视图查询 qiview 与其对应的图像特征 fi 进行交叉注意，得到 N 个观察的视图潜特征 V = {v1，v2，…，vN}。

接下来，对观测的视图潜特征进行时间聚合。观测的视图潜特征 V 通过从前一帧生成的历史视图潜特征 H 得到增强。E = V + H。
给定 E，一个航点解码器解码航点。该模块使用航点查询从 E 中提取相关信息。具体来说，初始化 M 个航点查询，Qwp = {q1wp, q2wp, . . . , qMwp}，其中每个查询都是可学习的嵌入。这些航点查询通过交叉注意机制与 E 交互。然后，更新后的航点查询通过 MLP 头输出航点 W = {w1,w2,…,wM}。

在训练期间，用 L1 损失来衡量预测航路点与真值航路点之间的差异。

世界模型

首先，根据增强视图潜特征 Et 和预测路径点 Wt 生成基于动作的视图潜特征。具体来说，设 Et ={e1t,e2t,…,eNt }，将 Wt ={wt1,wt2,…,wtM} 转换为一维向量 w。然后，沿特征通道维连接 e 和 w。连接后的向量由 MLP 变换以形成 ait，它与 eit 的特征通道维相匹配。

整体基于动作的视图潜特征为 At = {a1t, a2t, . . . , aNt}。随后，给定 At，通过潜世界模型获得第 t + 1 帧的预测视图潜特征 Pt+1。

潜世界模型的网络架构是一个 Transformer 解码器，由两块组成。每个块包含一个自注意和 FFN 模块。自注意在视图维上执行。在训练期间，用端到端规划器提取第 t + 1 帧的观察视图潜特征 Vt + 1。Vt + 1 用 L2 损失函数作为 Pt + 1 的监督。

此外，给定 At，将时间信息编码到历史视图隐特征 Ht+1 中。Ht+1 用于增强观察的视图隐特征 Vt+1。具体来说，在视图维上对 At 进行自注意，得到 Ht+1。

Ht+1 旨在将时间信息编码为残差，而 Pt+1 则旨在预测未来帧的视图潜特征。此外，Pt+1 可以很好地替代未来帧的观测视图潜特征，这启发一个想法：即视图选择概念。

视图选择

视图选择方法得益于世界模型预测的有效视图潜特征。该方法以多视图视频作为输入，动态选择一些信息视图来提取特征。其他视图不进行处理，其对应的视图潜特征由世界模型预测的视图潜特征替换。如图所示，此部分由三个部分组成。首先，给定几种潜视图选择策略，选择奖励预测组件，预测这些策略的奖励并选择奖励最高的策略。然后，根据选定的视图，具有选定视图的规划器预测轨迹。在训练期间，选择奖励标签模块为每个选择策略分配一个奖励标签。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-l7Dovlzp-1722269366448)(https://i-blog.csdnimg.cn/direct/763d1dd7c43240de9cb92d544de900b0.png)]

实验设置

开环基准测试。开环基准测试使用专业驾驶员录制的视频流以及相应的自车轨迹。在包含 1,000 个驾驶场景的 nuScenes 数据集 [1] 上进行实验。与之前的研究 [14、16、22] 一致，用位移误差 (DE) 和碰撞率 (CR) 来全面评估规划性能。位移误差测量预测轨迹和 GT 轨迹之间的 L2 距离。碰撞率量化遵循预测轨迹时与其他物体发生碰撞的概率。测试性能比较如下：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MFvziCG1-1722269366449)(https://i-blog.csdnimg.cn/direct/aa4b6d0674f342c88b690d9aa1dea18a.png)]

闭环基准测试。闭环评估对于自动驾驶至关重要，因为它会根据驾驶动作不断更新传感器输入。训练数据集是从 CARLA [9] 模拟器（版本 0.9.10.1）使用教师模型 Roach [43] 按照 [40、20] 收集，共产生 189K 帧。用广泛使用的 Town05 Long 基准 [20, 33, 11] 来评估闭环驾驶性能。用官方指标：路线完成度 (RC) 表示自动驾驶智体完成路线的百分比。违规分数 (IS) 量化违规次数以及违反交通规则的次数。违规分数越高，表明越能遵守安全驾驶习惯。驾驶分数 (DS) 是评估整体表现的主要指标。它由路线完成度和违规分数的乘积计算得出。测试性能比较如下：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nIZX3dy0-1722269366449)(https://i-blog.csdnimg.cn/direct/2018c6a651ca4c9e81ce7a889758c654.png)]

LAW 的默认配置不包括视图选择。对于开环基准，用 Swin-Transformer-Tiny [26]（Swin-T）作为主干。输入图像大小调整为 800 × 320。采用余弦退火 [27] 学习率进度，初始学习率为 5e-5。使用 AdamW [28] 优化器，权重衰减为 0.01，在 8 个 RTX 3090 GPU 上以批量大小 8 训练模型 12 个epochs。航点损失和潜在预测损失的权重设置为 1.0。对于具有选定视图的规划器，根据 LAW 使用奖励损失对其进行微调。将初始学习率设置为 5e-6，并再训练 6 个epochs。奖励损失的权重设置为 1.0。对于闭环基准。为了公平起见，用 ResNet-34 作为 [40] 的骨干。用方法 [20] 的 TCP 头 [40]。输入图像的大小为 900 × 256。优化器是 Adam。学习率设置为 1e-4，权重衰减为 1e-7。用批大小为 128 的模型训练 60 个 epochs。30 个 epochs 后，学习率降低 2 倍。

硅谷秋水

关注

18
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
利用潜世界模型增强端到端自动驾驶

24年6月来自中科院自动化所、中科大和中科院香港创新研究院的论文“Enhancing End-to-End Autonomous Driving with Latent World Model”。
复制链接

扫一扫

专栏目录