论文阅读:《GAIA-1:A Generative World Model for Autonomous Driving》

题目:GAIA-1:自动驾驶的生成世界模型

摘要

自动驾驶有望对交通带来革命性的改进,但构建能够安全地应对现实世界场景的非结构化复杂性的系统仍然具有挑战性一个关键问题在于有效预测随着世界的发展,车辆的行为可能出现的各种潜在结果。(也就是说构建一个可以有效的应对汽车行驶过程中可能出现的各种突发状态的一个系统是十分困难的)

为了应对这一挑战,我们引入了 GAIA-1(“自主生成人工智能”),这是一种生成世界模型,利用视频、文本和动作输入来生成真实的驾驶场景,同时提供对自我车辆行为和场景特征的细粒度控制。我们的方法通过将输入映射到离散标记并预测序列中的下一个标记,将世界建模视为无监督序列建模问题。我们的模型的新兴特性包括学习高级结构和场景动态、上下文感知、泛化和对几何的理解。 GAIA-1 学习表征的强大功能可以捕获对未来事件的期望,再加上生成真实样本的能力,为自动驾驶领域的创新提供了新的可能性,从而能够增强和加速自动驾驶技术的培训。(也就是说GAIA-1构建了一个生成世界模型,可以对未来世界进行预测,并且生成真实的样本)

介绍

预测未来事件是自主系统的基本和关键方面。准确的未来预测使自动驾驶车辆能够预测和规划其行动,从而提高道路的安全性和效率。为了实现这一目标,开发一个强大的世界模型势在必行[1],并且过去已经付出了巨大的努力来构建这种用于自动驾驶的预测世界模型[2,3,4,5,6]。世界模型 [7, 8] 学习对环境的结构化表示和理解,可用于在驾驶时做出明智的决策。

然而,当前的方法有很大的局限性。世界模型已成功应用于模拟 [9,10,11,12,13] 中的控制任务和现实世界的机器人任务 [14, 15]。这些方法通常依赖于标记数据,而大规模获取标记数据具有挑战性,并且适用于模拟数据的模型可能无法完全捕捉现实场景的复杂性。此外,由于其低维表示,这些模型可能难以生成未来事件的高度真实的样本,这对实现自动驾驶等复杂现实世界应用的高保真度预测提出了挑战。

与此同时,生成图像和视频生成的进步利用了自我监督学习的力量,从大量现实世界数据中学习,生成非常真实的视频样本[16,17,18]。然而,该领域仍然存在一个重大挑战:学习捕获预期未来事件的表示很困难。虽然此类生成模型擅长生成视觉上令人信服的内容,但它们可能无法学习不断变化的世界动态的表示,而这对于复杂场景中精确的未来预测和稳健的决策至关重要。

本文要解决两个问题:

1、现有的世界模型方法依赖于标记数据,但是取得大规模的标记数据十分困难,用模拟数据训练的模型不适用于真实世界场景。由于其低维表示,也很难生成高保真的样本。(说到底是一个数据不好的问题)

2、图像和视频生成预测未来世界比较难,特别是预测动态环境的未来。

在这项工作中,我们介绍了 GAIA-1,这是一种旨在保持世界模型和生成视频生成的优势的方法。它将生成视频模型的可扩展性和真实性、与世界模型学习未来演化的有意义表示的能力结合起来。 GAIA-1 的工作原理如下。首先,我们将模型分为两个部分:世界模型和视频扩散解码器。世界模型对场景的高级组件和动态进行推理,而扩散模型则负责将潜在表示转换回具有真实细节的高质量视频。(世界模型负责预测一个关于未来的表示,扩散模型负责去将这个未来的表示转化为真实的图像或者视频,或者环境)

对于世界模型,我们使用视频帧的矢量量化表示来离散化每个帧,将它们转换为令牌序列。随后,我们将预测未来的挑战重新定义为预测序列中的下一个标记 [10, 19]。近年来,这种方法被广泛应用于训练大型语言模型[20,21,22,23],并且它通过扩展模型大小和数据来提高模型性能的有效性得到了认可。通过自回归生成在世界模型的潜在空间内生成样本是很有可能实现的。

第二个组件是多任务视频扩散解码器,能够执行高分辨率视频渲染以及时间上采样,可以根据世界模型自回归生成的信息生成平滑的视频。与大型语言模型类似,视频扩散模型已经证明了训练规模和整体性能之间存在明显的相关性,使得 GAIA-1 的两个组件都适合有效的复合缩放。

GAIA-1 被设计为多模式,允许使用视频、文本和动作作为提示来生成多样化且真实的驾驶场景,如图 1 所示。通过在大量真实的英国城市驾驶数据上对其进行训练, GAIA-1 学习理解和解析重要概念,例如静态和动态元素,包括汽车、公共汽车、行人、骑自行车的人、道路布局、建筑物,甚至交通信号灯。此外,它通过动作和语言条件提供对自我车辆行为和其他场景特征的细粒度控制。

GAIA-1展示了体现现实世界生成规则的能力。学习高级结构、泛化、创造力和情境意识等新兴特性表明该模型可以理解和再现世界的规则和行为。此外,GAIA-1 展示了对 3D 几何的理解,例如,通过有效捕捉由减速带等道路不平整引起的俯仰和侧倾的复杂相互作用。它展示了其他代理的反应行为,展示了理解道路使用者决策中因果关系的能力。令人惊讶的是,它显示了成功推断训练数据之外的能力,例如驾驶到道路边界之外。有关示例的完整列表,请参阅第 7 节。

GAIA-1 的学习表示能够预测未来事件,再加上对自我车辆动力学和场景元素的控制,这是一项令人兴奋的进步,为改进具身智能并提供合成数据以加速训练和验证铺平了道路。 GAIA-1 等世界模型是预测接下来可能发生的情况的能力的基础,这对于自动驾驶的决策至关重要。

模型

编码视频、文本和动作

GAIA-1 可以利用三种不同的输入模式(视频、文本、动作),这些模式被编码到共享的 d 维空间中。

图像token

视频的每个图像帧都表示为离散标记。为了实现这一点,我们使用预训练的图像标记器进行离散化(细节参考Image Tokenizer这一节)。形式上,将一个图像序列中的每一张图像离散化为576个token。然后,这些离散标记通过与世界模型一起训练的嵌入层映射到多维空间。

文本token

在每个时间步骤 t,我们都会合并来自文本和动作的信息。文本输入使用预先训练的 T5-large 模型 [24] 进行编码,导致每个时间步 m = 32 个文本标记。这些标记通过与世界模型结合训练的线性层映射到 d 维空间。这个过程产生一个文本表示,表示为 ct = (ct,1, . . . , ct,m) ∈ Rm×d。

Action token

对于动作,我们考虑 l = 2 标量值(表示速度和曲率)。每个标量都通过使用世界模型训练的线性层独立映射到 d 维空间。因此,时间步 t 处的动作表示为 at = (at,1,...,at,l) ∈ Rl×d。

对于每个时间步长,输入标记按以下顺序交错:文本 - 图像 - 动作。因此,世界模型的最终输入是(c1,z1,a1,...,cT,zT,aT)。为了对输入标记的位置进行编码,我们使用分解的时空位置嵌入。 1)可学习的时间嵌入在给定时间步的所有标记之间共享,即有 T 个时间嵌入。 2)可学习的空间嵌入表示一个时间步内标记的位置,即有 m+ n + l = 610 个维度 d = 4096 的空间嵌入(m 个文本标记、n 个图像标记和 l 个动作标记)。

Image Tokenizer

当使用序列模型对离散输入数据进行建模时,需要在序列长度和词汇量之间进行权衡。序列长度是指描述数据所需的离散标记的数量。词汇量大小对应于单个标记可以采用的可能值的数量。对于语言来说,标记有两种明显的选择:字符和单词。当使用字符级标记时,​​输入数据具有较长的序列长度,每个单独的标记属于较小的词汇表,但传达的含义很少。当使用词级token时,输入数据的序列长度较短,每个token包含大量语义但词汇量极大。大多数语言模型 [25、26、24、21、27、22] 使用字节对编码(或等效编码)作为字符级和单词级标记化之间的权衡。

同样,对于视频,我们希望减少输入的序列长度,同时可能使词汇量更大,但标记比原始像素在语义上更有意义。我们使用离散图像自动编码器[28]来做到这一点。我们希望在第一阶段实现两个目标:

1、压缩原始像素的信息以使序列建模问题易于处理。图像包含大量冗余和噪声信息。我们希望减少描述输入数据所需的序列长度

2、将压缩引导至有意义的表示(例如语义),而不是高频信号。世界模型的最终输入空间将更容易组合,并且较少受高频信号支配,高频信号会大大减慢学习过程。

我们通过将每个输入图像的高度和宽度下采样 D = 16 倍来减少输入数据的序列长度。每个大小为 H ×W 的图像 x_t 由 n = H/D × W/D 标记和词汇量大小 K 来描述。受 [29] 的启发,我们通过回归到预训练的 DINO 模型的潜在特征来引导压缩朝向有意义的表示[ 30]。DINO是一种已知包含语义信息的自监督图像模型。有关定性示例,请参见图 3。

离散自动编码器是一个全卷积 2D U-Net [31]。编码器E_{\theta }使用可学习嵌入表 [28] 中的最近邻查找来量化图像特征,从而产生图像标记 z_t=E_{\theta }(x_t)。请注意,解码器仅用于训练图像自动编码器,只有离散编码器E_{\theta }是最终 GAIA-1 模型的一部分。由于解码器是在单个图像上进行训练的,因此在解码为视频时缺乏时间一致性。为此,我们还训练了第 2.4 节中描述的视频解码器。

图像自动编码器的训练损失如下:

1、图像重建损失。图像重建损失是L1、L2、感知损失L_{perceptual} [32]和GAN损失L_{GAN} [33]的加权和。

2、量化损失。为了更新嵌入向量,我们使用[28]中的嵌入损失和承诺损失。我们采用了[34]中嵌入的线性投影和 L2 归一化,因为我们发现这有助于增加词汇量的使用。

3、归纳偏置损失。鼓励量化的图像特征与具有余弦相似性损失的预训练 DINO [30] 模型的图像特征进行匹配。将 DINO 的信息提取到学习的标记中非常重要,因为它使它们能够从该模型的归纳偏差中受益。

世界模型

如 2.1 节所述,世界模型的输入是 (c1, z1, a1, ..., cT, zT, aT)。世界模型是一个对序列输入进行建模的自回归transformer网络。它的训练目标是使用transformer块的注意力矩阵中的因果mask来预测以所有过去标记为条件的序列中的下一个图像标记[35]。

我们在训练期间随机丢弃条件标记,以便世界模型可以执行(i)无条件生成,(ii)动作条件生成和(iii)文本条件生成。

为了进一步减少世界模型的序列长度,我们对视频进行时间子采样,从 25Hz 到 6.25Hz。这使得世界模型能够在更长的时间内进行推理,而不会导致难以处理的序列长度。为了以全帧速率恢复视频预测,我们使用第 2.4 节中描述的视频解码器执行时间超分辨率。

视频解码器

随着图像 [36, 37] 和视频生成 [16, 18] 的最新进展,我们将denoising video diffusion models用于 GAIA-1 解码器。将每个帧token独立解码到像素空间的简单方法会导致时间不一致的视频输出。将问题建模为在扩散过程中对帧序列进行去噪,模型可以跨时间访问信息,从而大大提高了输出视频的时间一致性。

我们遵循 [38] 并使用具有分解空间和时间注意力层的 3D U-Net。在训练期间,我们的视频扩散模型以通过使用预先训练的图像标记器 Eθ 离散化输入图像而获得的图像token为条件。在推理过程中,扩散模型以世界模型预测的图像token为条件。

我们在图像和视频生成任务上联合训练单个模型。视频训练教会解码器在时间上保持一致,而图像训练对于单个帧的质量至关重要[16],因为它教会模型从conditioning image tokens中提取信息。我们在图像训练时禁用时间层。

为了训练我们的视频扩散解码器以执行多个推理任务,我们从[17]中获得灵感,其中我们可以通过mask某些帧或conditioning image tokens来执行多个任务。我们选择为所有任务训练单个视频扩散模型,因为事实证明,多任务训练可以提高单个任务的性能[17]。这些任务包括图像生成、视频生成、自回归解码和视频插值。每个任务均等采样。例如,对于自回归生成任务,我们提供先前生成的过去帧作为我们想要预测的帧的上下文和条件图像标记。我们包括前向和后向自回归任务。有关每个任务的示例,请参见图 4。我们还通过以概率 p = 0.15 随机屏蔽每个条件图像标记来应用条件丢弃,因为它有助于模型超越依赖标记获取信息并提高时间一致性。

视频解码器根据噪声预测目标进行训练。更具体地说,我们使用[39]中提出的 v 参数化,因为它避免了不自然的颜色偏移并保持了长期一致性,与[16]中的情况类似。在实践中,我们使用 L1 和 L2 损失的加权平均值。视频解码器损失Lvideo为:

数据

我们的训练数据集包含 2019 年至 2023 年间在英国伦敦收集的 4,700 小时、25Hz 的专有驾驶数据。这对应于大约 4.2 亿张独特图像。在训练期间,我们平衡一组可定制的功能来控制数据的分布(图 5)。我们通过对各个数据点进行采样来实现这一点,其权重与给定特征的(分箱和预先计算的)经验分布成反比。对于给定的示例,我们采用所有特征的联合概率来平衡并随机决定是否包含或丢弃该示例。我们可以通过将采样权重提高到指数来控制平衡的强度,其中指数 0 将导致经验分布(无平衡),指数 1 将导致均匀平衡分布。我们对所有特征使用 0.5 的指数,作为实现的最终平衡与为了训练效率而丢弃样本的严重程度之间的折衷。

对于tokenizer,我们平衡了(纬度、经度、天气类别),以考虑地理和视觉上不同的天气条件,确保我们的tokenizer能够充分表示各种场景。

对于世界模型和视频扩散模型,我们平衡了(纬度、经度、天气类别、转向行为类别、速度行为类别),另外还考虑了速度和转向行为,以确保不同行为的动态被世界捕获并充分建模模型和时间解码器。

我们的验证数据集包含 400 小时的驾驶数据,这些数据来自未包含在训练集中的运行。选择进行验证的运行是那些通过预定地理围栏的运行以及随机选择的运行的选择。我们进一步将验证集划分为严格的地理围栏,以便仅分析严格位于验证地理围栏内的样本(即,在训练期间从未见过的道路)和我们主要数据收集路线周围的另一个地理围栏(即,在训练期间看到的道路)作为一种方式监控过度拟合和泛化。

训练流程

图像tokenizer

图像分词器(0.3B 参数)在分辨率 H ×W = 288 × 512(9/16 比率)的图像上进行训练。编码器的空间下采样为 D = 16,因此每个图像被编码为 n = 18 × 32 = 576 个离散 token,词汇大小 K = 8192。位压缩为 288×512×3×8/18×32×13约 470。

离散自动编码器使用 AdamW [40] 进行优化,学习率为 1 × 10−4,权重衰减为 0.01,β 系数为 (0.5, 0.9)。损失权重为 λL1 = 0.2,λL2 = 2.0,λLperceptual = 0.1,λLGAN = 1.0,λLcodebook = 1.0,λLDINO = 0.1。

该模型在 4 天内训练了 20 万步,批量大小等于 160,分布在 32 个 A100 80GB GPU 上。我们使用 5k 的线性预热和 10k 的余弦衰减来达到 1 × 10−5 的最终学习率。

世界模型

世界模型(6.5B 参数)在大小为 T = 26、频率为 6.25 Hz 的视频序列上进行训练,对应于 4 秒长的视频。文本被编码为每个时间步 m = 32 个文本标记,动作被编码为 l = 2 个标记。因此,世界模型的总序列长度为 T× (m+n+ l) = 15860。

世界模型使用 AdamW 进行优化,学习率为 1×10−4,权重衰减为 0.1,β 系数为 (0.9, 0.95),范数梯度裁剪为 1.0。训练示例可以是无条件的、动作条件的或文本条件的。这些各自的调节模式的比例为20%/40%/40%。

该模型在 15 天内训练了 100k 步,其中 2.5k 的线性预热和 97.5k 的余弦衰减在训练过程中将学习率降低了 10 倍。批量大小为 128,分布在 64 个 A100 80GB GPU 上。我们在transformer模块中使用了 FlashAttention v2 实现 [41],因为它在内存利用率和推理速度方面提供了显着的优势。为了优化分布式训练,我们使用带有激活检查点的 Deepspeed ZeRO-2 训练策略 [42]。

视频解码器

视频解码器 (2.6B) 在 T′ = 7 个分辨率为 H × W = 288×512 的图像序列上进行训练,这些图像以 6.25 Hz、12.5 Hz 或 25 Hz 的频率从数据集中采样。训练任务(图 4)以等概率进行采样。我们使用余弦 β 噪声表 [43]。

视频解码器使用 AdamW 进行优化,学习率为 5 × 10−5,权重衰减为 0.01,β 系数为 (0.9, 0.99),范数梯度裁剪为 1.0。该模型在 15 天内训练了 300k 步,其中进行了 2.5k 的线性预热和 5k 的余弦衰减,最终学习率为 1 × 10−6。我们使用 L1 和 L2 损失的加权平均值,权重 λL1 = 0.1 和 λL2 = 1.0。批量大小为 64,分布在 32 个 A100 80GB GPU 上。我们对参数使用指数移动平均值,衰减为 0.999。训练策略也是带有激活检查点的 Deepspeed ZeRO-2。

推理

世界模型

采样

世界模型以先前的文本、图像和动作标记为条件,自回归预测下一个图像标记。给定过去的标记,我们执行 n 个前向步骤来生成一个新的图像帧。在每一步中,我们必须从预测的 logits 中采样一个标记,以选择序列中的下一个标记。根据经验,我们观察到基于最大化的采样(即 argmax)会生成陷入重复循环的 future,类似于语言模型 [44]。相反,如果我们只是从 logits 中进行采样,则所选标记可能来自概率分布的不可靠尾部,这会导致模型脱离分布,请参见图 6。

为了鼓励多样性和真实性,我们采用 top-k 采样从 top-k 最有可能的选择中采样下一个图像标记。所选的 k 值是构成图像帧的标记数量以及预学习码本(词汇)大小的函数。

我们的世界模型可用于在给定起始上下文的情况下推出可能的未来,以及在没有任何起始上下文的情况下从头开始生成未来。对于长视频生成,如果视频的长度超过世界模型的上下文长度,我们采用滑动窗口。

text-conditioning

可以用文本来提示并指导视频预测。在训练时,我们使用来自在线旁白或离线元数据源的文本来调节视频序列。由于这些文本源不完美,为了提高生成的 future 和文本提示之间的一致性,我们在推理时采用无分类器指导 [45, 46]。引导的效果是通过减少可能样本的多样性来增加文本图像对齐。更准确地说,对于每个要预测的下一个标记,我们计算以文本为条件的 logits 以及没有条件的 logits。在推理时,我们可以使用比例因子放大无条件和文本条件 Logits 之间的差异,以给出用于采样的最终 Logits。

通过用另一个文本提示条件的 logits 替换无条件的 logits,我们可以执行“否定”提示 [47]。将逻辑从负面提示推向正面提示会鼓励未来的token包含“正面”提示特征,同时删除“负面”提示特征。

我们发现安排用于指导token和帧的比例因子非常重要。对token进行调度允许在高指导下对某些标记进行采样(因此严格遵守提示),而在低指导下对其他标记进行采样(因此增加了样本多样性)。对帧进行调度可以控制从较早帧的过渡,并减轻对后续连续帧的复合指导。在图 7 中,我们展示了超过 12 帧的指导时间表示例。通常,我们使用的时间表对token进行采样,并对token进行线性递减的指导,并通过余弦衰减降低对未来帧的指导,无论有或没有初始平台。我们注意到指导规模和时间表是需要根据特定用例进行调整的超参数。

视频解码器

为了解码从世界模型生成的标记序列,我们使用以下视频解码方法:

1、以相应的 T′ 图像标记为条件,解码前 T′ = 7 帧。

2、使用过去的 2 个重叠帧作为图像上下文以及接下来的 T' - 2 个图像标记,对接下来的 T' - 2 帧进行自回归解码。

3、重复自回归过程,直到以 6.25 Hz 生成 N 帧。

4、将 N 帧从 6.25 Hz 临时上采样到 12.5 Hz

5、将 2N − 1 帧从 12.5 Hz 临时上采样到 25.0 Hz

我们使用具有 50 个扩散步骤的 DDIM 采样器 [48]。在自回归解码过程中,我们看到生成视频中反映标记信息内容与时间一致性之间的权衡。为了平衡这两个目标,我们计算两个任务的加权平均值[18]。

将每个帧单独降噪为图像, 将帧序列联合降噪为视频。在实践中,我们只需打开和关闭时间层即可。我们对每个扩散步骤随机应用此加权平均值,概率为 p = 0.25,权重 w = 0.5。

在探索视频解码的不同推理方法时,我们发现从序列末尾开始向后自回归解码视频帧会导致更稳定的对象和更少的地平线上闪烁。因此,在我们的整体视频解码方法中,我们解码最后 T' 帧,并从那里向后自回归解码剩余帧。

Scaling

GAIA-1 中世界建模任务的表述与大型语言模型 (LLM) 中常用的方法具有共同点。在这两种情况下,任务都被简化为专注于预测下一个标记。尽管这种方法适用于 GAIA-1 中的世界建模,而不是 LLM 中看到的传统语言任务,但有趣的是,与 LLM 中观察到的类似,缩放定律 [49,21,27] 也适用于 GAIA -1。这表明缩放原则在现代人工智能模型中具有更广泛的适用性,涵盖不同领域,包括自动驾驶。

为了探索 GAIA-1 的缩放法则,我们使用计算量低于 20 倍训练的模型来预测世界模型的最终性能。我们通过测量交叉熵在保留的地理围栏验证集上评估了这些模型。然后将 f(x) = c + (x/a)b 形式的幂律拟合到数据点。在图8a中我们可以看到GAIA-1的最终交叉熵可以高精度预测。

用于拟合幂律的模型的参数范围为小 10,000 倍到 10 倍(0.65M 到 650M),如图 8b 所示。与[49]类似,计算量被估计为参数计数的函数。如果我们用 C 表示计算量,用 N 表示参数计数(不包括嵌入层),则单个令牌的前向后向传递的浮点运算数量由 C = 6N 给出。要获得计算总量,请将该值乘以训练令牌的数量。

值得注意的是,我们的推断使我们得出这样的结论:通过数据和计算资源的扩展,存在进一步改进的巨大潜力。

Capabilities and Emerging Properties

在本节中,我们通过一系列定性示例展示 GAIA-1 的功能和新兴属性。视频示例的完整列表可以在此处找到。图 9 显示了我们的模型可以生成的各种场景。正如本节其余部分中提供的示例所证明的,GAIA-1 通过以下涌现属性展示了对世界生成规则的一定程度的理解和总结:

1. 学习高级结构和场景动态:它生成连贯的场景,其中对象位于合理的位置并展示真实的对象交互,例如交通灯、道路规则、让路等。这表明该模型不仅仅是记住统计模式,但理解控制世界上物体的排列和行为的基本规则(参见第 7.1 节)。

2. 泛化性和创造性:它可以生成超出训练集中特定实例的新颖且多样化的视频。它可以产生训练数据中未明确存在的对象、运动和场景的独特组合,展现出卓越的外推能力。这展示了一定程度的概括性和创造力,这表明对控制视频序列的潜在生成规则的理解(参见第 7.2 节)。

3. 情境意识:GAIA-1 可以捕获情境信息并生成反映这种理解的视频。例如,它可以根据初始条件或提供的上下文在视频中生成连贯的动作和响应。此外,GAIA-1 展示了对 3D 几何的理解,有效捕捉由道路不平整(例如减速带)引起的俯仰和侧倾的复杂相互作用。这种情境意识表明,模型不仅在复制统计模式,而且在主动处理和总结给定信息以生成适当的视频序列(参见第 7.3 节)。

长时间驾驶场景生成

GAIA-1 可以完全凭想象生成稳定的长视频(分钟)(图 10)。为了做到这一点,该模型利用其学习到的隐式先验世界分布来生成完全想象的现实驾驶场景,其中包括复杂的道路布局、建筑物、汽车、行人等。这证明 GAIA-1 理解支撑我们所居住的世界及其结构和动态的规则。

多种合理未来的生成

GAIA-1 能够根据单个初始提示生成各种不同的未来场景。当以简短的视频作为背景时,它可以通过重复采样产生许多合理且多样化的结果。 GAIA-1 响应视频提示,准确地模拟多种潜在的未来场景,同时保持与视频中观察到的初始条件的一致性。如图 11 所示,世界模型可以推理 (i) 与道路使用者的动态交互(例如让路或不让路),(ii) 多模式自我行为(例如直行或在环岛转弯),以及( iii)多模式动态场景(例如可变的交通密度和道路使用者类型,例如行人、骑自行车的人、骑摩托车的人、车辆)和静态场景(例如道路布局、建筑物、植被)。

对自我车辆行为和驾驶场景的细粒度控制

GAIA-1可以仅根据文字提示生成视频,完全想象场景。为了演示这一点,我们展示了如何根据文本提示生成驾驶场景,引导模型适应特定的天气或照明条件,如图 12 所示。

接下来,我们提供令人信服的示例,其中模型对视频中的车辆动力学表现出细粒度的控制。通过利用此控制,我们可以提示模型生成描述训练数据范围之外场景的视频。这表明 GAIA-1 能够将自我车辆动力学与周围环境分开,并有效地推广到不熟悉的场景。它提供了明确的能力来推理我们的行为对环境的影响(安全),它可以更丰富地理解动态场景(智能),它可以解锁基于模型的策略学习(在世界模型中进行规划),并且可以进行探索闭环(通过将世界模型视为神经模拟器)。为了展示这一点,我们让 GAIA-1 生成未来,其中自我车辆向左或向右转向,偏离其车道(图 13)。 GAIA-1 永远不会在用于训练它的专家驾驶数据集中看到这些不正确的行为,这表明它可以推断出以前在训练数据中未见过的驾驶概念。我们还看到其他智能体对自我车辆的受控行为的真实反应。

最后,我们展示了 GAIA-1 利用文本和动作来充分想象驾驶场景的能力。在这种特殊情况下,我们提示模型在自我车辆前面生成一辆公共汽车,然后强制其行动超越公共汽车。

  • 17
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值