以自我中心的视觉语言规划

206 篇文章 0 订阅
162 篇文章 0 订阅

24年8月来自北京智源研究院、清华深圳国际研究生院和北大的论文“Egocentric Vision Language Planning”。

探索利用大型多模态模型 (LMM) 和文本-到-图像模型来构建更通用的具身智体。LMM 擅长通过符号抽象来规划长期任务,但在物理世界中却难以扎根,通常无法准确识别图像中的物体位置。需要一座桥梁将 LMM 连接到物理世界。本文提出自我中心的视觉语言规划 (EgoPlan),从自我中心的角度处理不同家庭场景中的长期任务。该模型利用扩散模型来模拟状态和动作之间的基本动态,整合风格迁移和光流等技术来增强不同环境动态的泛化。LMM 充当规划器,将指令分解为子目标,并根据它们与这些子目标的一致性选择动作,从而实现更普遍和有效的决策。实验表明,与家庭场景中的基线相比,从自我中心的角度来看,EgoPlan 提高长期任务的成功率。

大语言模型 (LLM) [13, 41] 和大型多模态模型 (LMM) [1, 16, 48, 51] 的出现彻底改变人工智能领域。它们强大的推理能力 [43, 44] 和强大的泛化能力使它们可以直接应用于各种场景。在迈向通用人工智能 (AGI) 的下一步中,研究人员正在考虑让大模型 (LM),尤其是 LMM,突破文本和图像所表达的世界,与物理世界进行交互。他们的目标是构建一个可以智能地与物理世界交互的通用具身智体。

LMM 已经展示一种令人印象深刻的能力,即在物理世界中对符号抽象进行长远任务的规划能力 [42]。然而,拼图中仍然缺少一块。他们一直在努力将文本世界与物理世界联系起来。例如,GPT-4V 经常无法准确识别图像中物体的位置。LMM 似乎知道下一步该做什么,但不了解世界是如何运转的。因此,需要一个世界模型(动态模型)将 LMM 连接到物理世界。有两种潜在的解决方案。一种是将环境动态隐式地集成到 LMM 中,即基于大量状态动作序列对 LMM 进行微调,例如 PaLM-E [7] 和 RT-2 [11]。但是,直接训练大模型需要大量数据和计算资源。另一种是明确引入预训练的世界模型,例如 text2image 模型 [32, 34],LMM 可以将其用作辅助工具。该工作探索第二条路径。试图回答这个问题:如何利用 LMM 和 text2image 模型来构建更通用的具身智体?

一些工作已经将 text2image/video 模型训练为决策的世界模型。然而,仍然存在一些限制。1)首先,它们的任务场景通常涉及目标操作,这是一个完全可观察的设置。这在现实场景中并不常见,而且它们的方法似乎很难适应其他实际场景。例如,SuSIE [2] 和 VLP [9] 需要提前几步生成图像,但对于大多数部分可观察的场景(例如自动驾驶),长距离预测引入的误差是相当大的。相比之下,本文专注于更具挑战性、部分可观察的设置。从自我中心的角度来看,具身智体与人类一样,倾向于完成更复杂的任务,例如家务。2)其次,它们的框架泛化能力有限,主要体现在两个方面:(i)它们的低级策略是针对特定任务量身定制的,不同的动态可能导致策略失败;(ii)对于文本描述的相同动作(例如左转),动态可能会有所不同。这是因为来自不同环境(例如模拟器或物理世界)的个体表现出差异。text2image / text2video 模型缺乏个体运动模式信息,无法准确推广到训练数据集之外的其他环境动态。希望智体可以推广到同一类型场景中的不同动态,例如家庭场景。

世界模型用于模拟环境的动态。它对于构建自主智体和在各种场景中实现智能交互至关重要。然而,开发精确的世界模型仍然是基于模型的决策中的一项重大挑战。

Dreamer 系列 [17、18、19] 在潜空间中对环境动态进行建模,以预测游戏环境中的未来状态。它使游戏智体能够通过想象来学习任务,从而减少交互以实现有效学习。然而,由于世界模型是在潜空间而不是像素空间中学习的,这些模型通常缺乏对未见过的任务和环境的泛化。在像素空间中构建的世界模型,可能具有更好的泛化能力。通过沿着不同的轴精心编排丰富的数据,UniSim [45] 可以以视觉形式模拟真实的体验,以响应人类、机器人和其他交互式智体的动作。总之,可以发现世界模型的多种应用超越了游戏和机器人技术。

基于扩散的世界模型的进步,正在重塑在现实世界环境中建模物理运动定律的方式,特别是在机器人技术中。 UniPi [8] 将机器人决策问题定义为文本-到-视频任务。生成的视频被输入到逆动力学模型 (IDM) 中,该模型提取底层的低级控制动作,这些动作在模拟中或由真实的机器人智体执行。视频语言规划 (VLP) [9] 引入了一种任务规划方法,将视频生成与树搜索算法相结合。这种方法让机器人能够通过可视化未来的行动和结果来规划更长远的未来。与之前的研究不同,SuSIE [2] 利用预训练的图像编辑模型来预测假设的未来框架。低级目标达成策略在机器人数据上进行训练,以达到这个假设的未来框架。由于一个目标框架预测不需要模型理解机器人低级精确动力学的复杂性,因此它应该有助于从其他数据源(例如人类视频)的迁移。RoboDreamer [50] 通过利用视频扩散来制定结合动作和目标的规划,解决了未探索的机器人环境中新任务,从而推动了该领域的发展。

将 text2video 模型应用于部分观察的场景是不现实的。此外,由于视角的转变可能很大,因此很难提前几步预测目标帧。因此,采用 text2image 模型来准确预测一步规划的短期结果。

大多数与具身智体相关的数据集(例如 RT-X [12] 和 RH20T [14])都采用第三人称视角来避免视觉遮挡问题,因此缺少关于自我中心视角(第一人称视角)的数据。有些数据集(例如 Alfred [37] 和 Procthor [5])采用第一人称视角,但它们通过假设动作瞬间完成来简化状态转换,这无法模拟真实环境中的动态变化。本文提出基于 VirtualHome [30, 31] 环境的 VH-1.5M 数据集来解决这些限制。

在 VirtualHome 环境中构建了数据集 VH-1.5M,该环境包含 50 栋不同的房屋。每栋房子包含大约 300 个交互式目标,具身智体可以执行 10 多个动作。请注意,VirtualHome 环境是专为具身智体量身定制的模拟器,可详细模拟住宅生活场景。它支持一系列家务任务,例如导航和目标操作。

VH-1.5M 数据集以结构化方式组织,封装了动作、房屋、智体和轨迹之间的关系。每个任务序列条目都遵循层次结构,例如“/open/house_0/Female4/2_fridge”(female4 打开 house0 中的冰箱 2)。

VH-1.5M 数据集包括:
• 13 个动作:房屋内智体的各种物理动作和交互。
• 50 栋房屋:设计独特的房屋,具有不同的布局和物体位置。
• 4 个智体:四个不同的智体,每个都能执行各种动作。
• 1.5M 个样本:Dateset 有许多详细的序列,每个序列执行一个动作。序列中每个步骤的信息都存储为一个样本。如图显示了一个例子。用 House49 作为验证集。
请添加图片描述

具身智体 EgoPlan 将当前时间步 t 场景的视觉观察 xt 和自然语言目标 g 作为输入,并输出动作 at 以与环境交互。请注意,xt 仅部分表示当前环境状态。此外,智体使用封装的技能作为动作,例如向前移动、转弯和抓取物体。

EgoPlan 由两部分组成,如图所示。一个是动态模型,它为智体提供当前环境的概念,另一个是规划器,它赋予智体决策能力。直观地讲,人类首先在脑海中设想每个动作的结果,然后通过比较结果做出最佳决策。

请添加图片描述

基于扩散的动力学模型

学习动力学

从第一人称视角来看,两个时间步之后的视图可能完全不同,建模起来很困难。因此,旨在建模基本动力学模型 pθ(xt+1|xt,at),以供一步规划使用。更详细地说,希望根据当前的视觉观察 xt 和动作文本 at 生成一个新的图像 xt+1,表示下一个状态。然后,将目光投向 text2image 模型,并专门使用扩散模型进行建模。它在轻松合并其他模态作为条件方面具有不可替代的优势。

虽然在大量在线视频上训练的开源扩散模型 [22, 28] pθ(xtar|xsrc, l) 已展示出预测未来的能力,但它们生成的结果难以控制,并且大多数仅在语义上合理。此外,预训练数据集中的大部分文本由图像描述 l 而不是动作指令 a 组成。因此,基于 VH-1.5M 数据集采用监督微调来更好地模拟动态,pθsft (xt+1|xt, at)。

然而,由于数据集仅包含 VirtualHome 场景,因此很难直接推广到其他环境。两个环境(例如 Habitat2.0 [35, 39] 和 VirtualHome)之间的差异,主要在于它们对同一动作有不同的运动模式和不同的视觉风格。尤其是对于前者,不同环境中智体执行的运动模式(例如同一动作的幅度)可能无法预测。

泛化

希望从不同的角度提高模型的泛化能力。换句话说,目标是在方法论层面明确解决上述环境之间的差异,而不是通过大数据和大模型来增强泛化能力。

运动正则化。首先,必须将运动信息结合到扩散模型中,以区分不同的运动模式。因此,光流是个途径。它是指由于物体或相机移动而导致的两个连续帧之间图像目标明显运动的模式。在光流图中,颜色表示运动的方向,颜色的深度或强度表示运动的幅度,这是不同环境中的普遍特征。

然而,在实践中,如果没有下一个观察结果,无法获得当前的光流 ft,t+1。受其他运动估计工作 [4, 47] 的启发,假设运动一致性在短间隔内保持,这意味着不会发生突然的变化。因此,连续的光流图是高度相关的,能够使用前一个图来预测当前的光流图。前一个图是根据前两帧计算出来的,反映了当前环境中的实际运动模式。

光流生成不需要复杂的纹理生成,并且预计不会在流水线中造成显著的延迟。因此,采用一个功能较弱但轻量级的生成模型 VQ-GAN [10],并在数据集上对其进行训练以预测光流图。从经验上看,预测光流的泛化能力比预测实际图像要好得多。

总之,用一个简单的模型来预测运动模式,然后用一个更复杂的模型根据运动模式重建真实纹理。因此,采用 ControlNet [49] 将光流图 ft,t+1 合并到默认扩散模型 pθsft (xt+1|xt, at, ft,t+1) 中。此阶段只需在 VH-1.5M 上微调 ControlNet 部分。

其次,用 LoRA 对视觉风格迁移的扩散模型进行微调。LoRA 所需的数据非常少,只需数十个样本。通常,在新环境中收集如此规模的数据很方便。希望模型能够以尽可能少的努力实现泛化。

采用动力学模型的规划

为了避免在新的环境中进一步训练,提示 LMM,即 GPT-4V,作为规划器。LMM 需要负责高级目标分解以及低级动作选择。同时,预训练的动力学模型可以帮助 LMM 更好地理解世界。

目标分解

对于长期复杂任务,目标分解是必不可少的步骤。子目标可以用文本和图像形式表示。对于基于文本的子目标 gtar,提示 LMM 生成一个合理的子目标。此外,训练另一个扩散模型 pθsft (xtar|xt, gtar),根据基于文本的子目标和当前观察来生成基于图像的子目标 xtar。请注意,预测子目标的图像可能比预测下一个观察更具挑战性,这意味着结果不是很精确。

单步规划器

由于只能确保下一步的预测相对准确,因此采用单步规划方法。更详细地说,利用预训练的动力学模型来预测下一状态下所有动作的视觉结果。一旦获得基于文本/图像的子目标,就将子目标和所有视觉结果发送给 LMM。然后,提示它将所有潜结果与子目标进行比较,并确定哪些动作可以使智体更接近目标。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值