采用世界模型的自动驾驶多视角预测和规划

23年11月来自中科院自动化所和香港AI机器人研究中心的论文“Driving into the Future: Multiview Visual Forecasting and Planning with World Model for Autonomous Driving“。

在自动驾驶领域,提前预测未来事件并评估可预见的风险,使自动驾驶汽车能够更好地规划行动,提高道路上的安全性和效率。Drive WM,是一个与现有端到端规划模型兼容的驾驶世界模型。通过视图分解的联合时空建模,在驾驶场景中生成高保真多视图视频。基于其生成能力,体现世界模型进行安全驾驶规划的潜力。Drive WM能够基于不同的驾驶机动,并根据基于图像的奖励确定最佳轨迹。

如图所示,当自车的位置横向偏离中心线时,端到端规划器难以生成合理的轨迹。为了缓解这个问题,开发一个预测模型来提高自动驾驶的安全性,该模型可以在决策之前预测规划器恶化。该模型被称为世界模型[19,20,35],旨在根据当前状态和自我行为来预测未来状态。通过提前对未来的视觉估计和在实际决策前获得不同未来驾驶的反馈,可以提供更合理的规划,增强端到端自动驾驶的通用性和安全性。

添加图片注释,不超过 140 字(可选)

驾驶世界模型的三个挑战:(1)驾驶世界模型需要在高分辨率像素空间中建模。先前的低分辨率图像[20]或矢量化状态空间[4]方法不能有效地表示现实世界众多细粒度或无法矢量化的事件。此外,矢量空间世界模型需要额外的标注,并且受到感知模型状态估计噪声的影响。(2) 生成多视角一致的视频很困难。先前和并行的工作仅限于单视图视频[28,31,63]或多视图图像生成[17,53,69],这使得多视图视频生成成为自动驾驶综合环境观测的一个悬而未决的问题。(3) 灵活适应各种不同条件有挑战性,如不断变化的天气、照明、自我动作和道路/障碍物/车辆布局。

如图所示:通过世界模型进行多视图可视化预测和规划。在时间T,世界模型设想T+K的未来,并发现在T处保持直线前进是安全的。然后模型意识到,根据时间T+2K的想象,自汽将离前车太近,因此决定换到左侧车道进行安全超车。

添加图片注释,不超过 140 字(可选)

如图是所提出的Drive WM框架概述。(a) 说明了所提出方法的训练和推理流水线。(b) 可视化用于控制多视图视频生成的统一条件。(c) 表示分解的多视图生成概率图。将(a)的3视图输出作为输入,生成其他视图,增强多视图的一致性。

添加图片注释,不超过 140 字(可选)

假设访问多个活动视频的数据集pdata,使得x~pdata是具有K个视图T个图像的序列,高度和宽度分别为H和W。给定编码视频潜表征E(x)=z,扩散输入zτ,噪声ε~N(0,I),ατ和στ定义了由一个扩散时间步τ参数化的噪声时间表。去噪模型fθφψ(由空间参数θ、时间参数φ和多视图参数ψ来参数化)接收扩散的zτ-作为输入,并通过最小化去噪分数匹配目标来优化如下

添加图片注释,不超过 140 字(可选)

其中c是条件,目标y是随机噪声ε。pτ在时间τ上均匀分布。

为了对多视点时间数据进行联合建模,从图像扩散模型开始,并引入额外的时间层和多视点层将其适应于多视点时间场景。引入时间层来将预训练的图像扩散模型提升为时间模型。按照VideoLDM[2]的实践,时间编码层连接在每块2D空间层之后。空间层以逐帧和逐视图的方式对潜变量进行编码。然后,重新排列潜变量以保持时间维度,将3D卷积应用于时空维度。然后安排潜变量,在时间维度上应用标准的多头自注意,增强时间相关性。

为了联合建模多个视图,不同视图之间必须进行信息交换。因此,引入多视图编码层,将单视图时间模型提升为多视图时间模型。特别是,将潜变量重新排列以保持视图维度。然后,在视图维度上使用自注意层。这样的多视图保持让所有视图具有相似的风格和一致的整体结构。
给定图像扩散模型,不会从头开始训练时间多视点网络。相反,首先用单视图图像数据和条件训练标准图像扩散模型。然后,冻结扩散模型参数,并用视频数据微调附加的时间层和多视点层。

联合分布可以在不同视图之间产生相似的风格,但很难确保其重叠区域的严格一致性。所以引入分布因子分解来增强多视图一致性。设xi表示第i个视图的样本,本质上对联合分布p(x1,…,K)进行建模为

添加图片注释,不超过 140 字(可选)

等式表明不同的视图是以自回归的方式生成的,其中新视图以现有视图为条件。这些条件分布可以确保更好的视图一致性,因为新视图知道现有视图的内容。然而,这样的自回归生成是低效的,这样的全因子分解在实践中是不可行的。

为了简化建模,将所有视图划分为两种类型:参考视图xr和拼接视图xs。例如,在nuScenes中,参考视图可以是{F,BL,BR},拼接视图可以是{FL,B,FR}。用术语“拼接”是因为拼接视图似乎是从其两个相邻的参考视图“拼接”而来的。属于同一类型的视图彼此不重叠,而不同类型的视图可能重叠。首先对参考视图的联合分布进行建模。这里,联合建模对于那些不重叠的参考视图是有效的,因为不需要严格的一致性。然后,xs的分布被建模为以xr为条件的条件分布。如图说明了nuScenes中多视点分解的基本概念。

添加图片注释,不超过 140 字(可选)

如此简化公式如下

添加图片注释,不超过 140 字(可选)

考虑到时间相干性,将前帧作为附加条件。方程可以重写为

添加图片注释,不超过 140 字(可选)

其中xpre是来自先前生成视频片段的上下文帧(例如最后两个帧)。参考视图p(xr|xpre)的分布由上面流水线实现。至于p(xs|xr,xpre),采用了类似的流水线,将相邻的参考视图作为附加条件,如上图所示。

由于现实世界的复杂性,世界模型需要利用多种异构条件。本文用初始的上下文帧、文本描述、自车动作、3D框、BEV图和参考视图。为了更好的可控性,可以进一步包括更多的条件。每一个都开发专门接口是耗时且不灵活的,无法包含更多的条件。为了解决这个问题,引入了一个统一的条件接口,简单而有效地集成了多个异构条件。

图像条件。将初始上下文帧(即片段的第一帧)和参考视图视为图像条件。将给定的图像条件I编码并展平为d维嵌入序列I=(i1,i2,…,in),使用ConvNeXt作为编码器[39]。来自不同图像的嵌入在n的第一维度级联在一起。

布局条件。布局条件指的是3D框、HD地图和BEV分割。为了简单起见,将3D框和高清地图投影到二维透视图中。通过这种方式,利用与图像条件编码相同的策略对布局条件进行编码,从而产生嵌入序列l=(l1,l2,…,lk)。k是来自投影布局和BEV分割嵌入的总数。
文本条件。遵循扩散模型的惯例,采用预训练的CLIP[42]作为文本编码器。具体来说,将视图信息、天气和光线组合起来,获得文本描述。嵌入表示为e=(e1,e2,…,em)。

动作条件。动作条件对于世界模型创造未来是必不可少的。为了与现有的规划方法兼容[30],将一个时间步的动作定义为(∆x,∆y),它表示自我位置到下一个时间步的运动。用MLP将动作映射到d维的嵌入a中。

一个统一的条件接口。到目前为止,所有条件都映射到d维特征空间中。将所需嵌入级联作为去噪UNet的输入。以基于动作的联合视频生成为例,能够利用初始上下文图像、初始布局、文本描述和逐帧动作序列。所以在某个时间t有统一的条件嵌入如下

添加图片注释,不超过 140 字(可选)

其中下标t表示第t个生成帧,下标0表示当前真实帧。这种不同条件组合提供了一个统一的界面,可以根据要求进行调整。最后,ct以帧方式通过交叉注意与3D UNet中潜变量zt交互。

盲目地规划动作而不预见后果是危险的。利用世界模型,可以对可能的未来进行全面评估,以实现更安全的规划。在每个时间步长,利用世界模型为规划器中采样的候选轨迹生成预测的未来场景,使用基于图像的奖励函数评估未来,并选择最佳轨迹来扩展规划树。

如图所示,顶部显示了规划流程的组成部分,底部是基于图像的奖励得到规划树的决策过程。将规划树定义为一系列预测的自轨迹,这些轨迹随时间推移而演变。对于每一次,摄像机都可以捕捉到真实的多视点图像。预训练的规划器将真实的多视点图像作为输入,并对可能的候选轨迹进行采样。为了与主流规划器的输入兼容,将时间t的动作定义为每个轨迹(xt+1−xt,yt+1−yt),其中xt和yt是时间t的自位置。给定这些动作,采用等式的条件组合来生成视频。视频生成后,利用基于图像的奖励函数来选择最佳轨迹作为决策。可以重复这样的生成决策过程,最后形成基于树的展开轨迹。

添加图片注释,不超过 140 字(可选)

在生成规划轨迹的未来视频后,需要奖励函数来评估多个未来的稳健性。首先从感知结果中获得奖励。特别地,用基于图像的3D目标检测器[37]和在线HDMap预测器[38]获得生成视频的感知结果。然后,受传统规划器[6,30]的启发,定义地图奖励和目标奖励。地图奖励包括两个因素,远离路的距离,鼓励自车停留在正确的可驾驶区域,以及中心线一致性,防止自我频繁变道和横向偏离车道。目标奖励是指在纵向和横向上与其他道路使用者的距离。这种奖励避免了自车与其他道路使用者之间的碰撞。总奖励定义为目标奖励和地图奖励的乘积。最终选择了具有最大回报的自预测。然后,规划树转发到下一个时间戳,并迭代地规划后续轨迹。

由于所提出的世界模型在像素空间中运行,可以进一步从非矢量化表示中获得奖励,处理更一般的情况。例如,洒水车喷出的水和受损的路面很难通过监督的感知模型进行矢量化,而根据大量未标记数据训练的世界模型可以在像素空间中生成此类情况。利用最近强大的基础模型,如GPT-4V,规划过程可以从非矢量化表示中获得更全面的回报。

附:为了评估在不同规划下不同预测的安全性,利用最近的GPT-4V模型作为评估。具体来说,用Drive WM来合成具有不同路况和智体行为的各种未来驾驶视频。然后,用GPT-4V来分析这些模拟视频,并在驾驶安全方面提供整体奖励。如图所示,它展示了GPT-4V在道路前方有水坑时规划的不同驾驶行为。与矢量化输入的奖励函数相比,GPT-4V提供了对DriveWM视频中危险情况的更广泛理解。通过部署GPT-4V的多模态推理能力用于未来场景评估,能够增强评估,识别未直接表示但通过更广泛的场景理解推断的风险。这证明了将Drive WM等生成世界模型与GPT-4V等奖励生成模型相结合的价值。用GPT-4V来批评Drive WM的预测,可以实现更稳健的反馈,最终提高在不同现实条件下的自动驾驶安全性。

添加图片注释,不超过 140 字(可选)

另外nuScenes数据集的自车动作分布严重不平衡:其大部分帧表现出较小的转向角(小于30度)和10-20m/s的正常速度。这种不平衡导致转向角和速度罕见组合可推广性较弱。

为了减轻这种负面影响,重新采样罕见的自车行为平衡训练数据集。首先,将每条轨迹分成几个片段,每个片段只展示一种驾驶行为(即左转、直行或右转)。这一过程产生了1048个独特的剪辑。然后,通过数字化平均转向角和速度的组合来对这些片段进行聚类。速度范围[0,40](m/s)被划分为10个长度相等的bins。超过40米/秒的极端速度将落入第11个bin。转向角范围[-150,150](度)分为30个长度相等的bin。同样,大于150度或小于-150度的极端角度将分别落入另外两个仓中。在图绘制了这种分类产生的自车行动分布。

添加图片注释,不超过 140 字(可选)

为了平衡这些片段的动作分布,从2D 32×11网格的每个bin采样 N=36个片段。对于包含N个以上剪辑的bin,随机采样N个剪辑;对于包含少于N个片段的bin,循环浏览这些片段,直到收集N个样本。因此,一共收集了7272个剪辑。重新采样后的动作分布如上图所示。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值