3D-VLA:3D 视觉-语言-动作生成世界模型

276 篇文章 2 订阅
216 篇文章 0 订阅

24年3月来自麻省大学、上海交通大学、华南理工大学、武汉大学、 麻省理工、加州洛杉矶分校和MIT-IBM Watson AI 实验室的论文“3D-VLA: A 3D Vision-Language-Action Generative World Model”。

最近的视觉-语言-动作 (VLA) 模型依赖于 2D 输入,缺乏与 3D 物理世界更广阔领域的整合。此外,它们通过学习从感知到动作的直接映射来进行动作预测,忽略了世界的广阔动态以及动作与动态之间的关系。相比之下,人类被赋予了描绘未来场景想象的世界模型,相应地规划行动。为此,提出 3D-VLA,通过引入一系列具身基础模型,通过生成世界模型无缝链接 3D 感知、推理和动作。具体而言,3D-VLA 建立在基于 3D 大语言模型 (LLM) 之上,并引入了一组交互tokens来与具身环境互动。此外,为了将生成能力注入模型,训练一系列具身扩散模型并将它们对齐到 LLM 中以预测目标图像和点云。为了训练 3D-VLA,从现有的机器人数据集中提取大量 3D 相关信息,从而整理出一个大规模 3D 具身化指令数据集。在保留的数据集上实验表明,3D-VLA 显著提高具身化环境中的推理、多模态生成和规划能力,展示其在现实世界应用中的潜力。

构建类人的 3D 世界模型不可避免地存在挑战。首先,现有的基础模型专注于语言生成,无法想象语言之外的模态并模拟未来状态以促进动作生成,这是世界模型的一个重要方面。其次,现有的具身数据集主要包含 2D 图像或视频,缺乏用于在 3D 空间中进行推理和规划的 3D 相关注释。

构建这种生成世界模型的另一个挑战在于缺乏数据。正在使用的具身数据集(Open x-embodiment、BC-Z)主要由 2D 图像组成,缺乏 3D 相关信息。因此,策划一个大规模 3D 具身指令调整数据集。

最近,得益于互联网上数十亿级的数据集,VLM 在各种任务中表现出了卓越的能力。同样,由视频-动作对组成的百万级数据集为机器人控制的具身 VLM 奠定了基础。然而,它们大多不提供深度或 3D 注释,也无法在机器人操作中提供精确控制,而这些操作需要包含 3D 空间推理和交互。如果没有 3D 信息,机器人就很难理解和执行需要 3D 空间推理的命令,例如“将最远的杯子放入中间的抽屉”。

为了弥补这一差距,构建一个大规模 3D 具身指令调整数据集,该数据集提供足够的 3D 相关信息以及成对的文本指令来训练模型。设计一个流程来从现有的具身数据集中提取 3D 语言-动作对,从而获得点云、深度图、3D 边框、机器人的 7D 动作和文本描述的注释。

这样一个多样化的数据集,包括机器人操作和人机交互的真实和合成数据。对于缺少深度数据的数据集,用深度估计器来附加必要的 3D 细节并将它们投影到 3D 点云。通过这种方式,收集 2M 个 3D 语言-动作数据对,如图所示。

请添加图片描述
请添加图片描述

接着,如图所示,首先在 3D-LLM(Hong,2023)之上构建主干模型,并通过添加一系列交互tokens进一步增强模型与 3D 世界交互的能力。接下来,首先预训练具身扩散模型并使用投影器对齐 LLM 和扩散模型,将目标生成能力注入 3D-VLA。

请添加图片描述

具体地,为了增强模型对 3D 场景的理解并促进这些环境中的交互,引入了一组交互tokens。首先,合并目标tokens ,它将解析后的句子中的目标名词括起来(例如,桌子上的 一块巧克力棒 [loc tokens]),以便模型可以更好地捕获哪些目标被操作或引用。其次,为了更好地通过语言表示空间信息,设计一组位置tokens 用于定位引用目标,这些目标由 3D 边框的六个tokens表示,形式为 AABB。第三,为了更好地使用框架编码动态,引入 tokens来封闭静态场景的嵌入。通过对场景tokens进行组合,3D-VLA 可以理解动态场景并管理交织 3D 场景和文本的输入。

通过一组扩展的专用tokens来进一步增强架构,这些tokens代表机器人动作。机器人的动作有 7 个自由度,由离散tokens表示,例如 、 和 <gripper0/1>,表示手臂的预期绝对位置、旋转、夹持器打开度。这些动作由tokens 分隔。

人类会预先想象场景的最终状态,以促进动作预测或决策,这是构建世界模型的关键方面。此外,提供真实的最终状态,可以增强模型的推理和规划能力。然而,训练 MLLM 来生成图像、深度和点云并非易事。

首先,最先进的视频扩散模型并不是针对具身设置量身定制的。例如,当要求 Runway (Esser et al., 2023) 根据“打开抽屉”的指令生成未来帧时,整个场景会在很大程度上改变,包括视图变化、意外的物体变形、奇怪的纹理替换以及布局扭曲。同样,使用 DreamLLM (Dong et al., 2023) 的方法直接冻结在互联网数据上训练的稳定扩散模型,可能会导致输出崩溃。其次,如何将各种模态的扩散模型整合到单一基础模型中仍然是一个挑战。因此,将生成图像、深度和点云的能力注入 3D-VLA。首先根据图像、深度和点云等不同模态对具身的扩散模型进行预训练,然后通过对齐阶段将这些扩散模型的解码器与 3D-VLA 的嵌入空间对齐。

对于 RGBD 到 RGBD 的生成,采用SD V1.4 (Rombach,2022) 作为预训练模型,因为在预训练 VAE (Kingma & Welling,2013) 的潜空间中运行时,潜扩散生成图像的效率和质量较高。将 RGB 潜嵌入和深度潜嵌入连接起来作为图像条件。同样,对于点到点生成,用 Point-E (Nichol,2022) 作为预训练模型,并向其添加点云条件输入。

在对扩散模型进行预训练之后,配备各种解码器,它们可以通过调节其模态中的潜空间来生成目标。如何将预训练的解码器无缝地合并到 LLM 中,以便 3D-VLA 能够针对任何以输入指令为条件的预训练模态生成目标,仍然是一个挑战。

为了弥合 LLM 与不同模态扩散模型(DM)之间的差距,在 3D-VLA 中开发了一个对齐阶段。首先引入额外的特殊tokens,例如 和 。这些tokens经过精心设计,可告知解码器要输出的模态内容类型。在封闭的 token 之间,监督 LLM 生成供机器人执行的指令,其中可能包括目标 token 和位置 token,例如 拿起 苹果 [loc tokens] 。在此基础上,可以应用基于 Transformer 的投影器,它能够将大语言模型 (LLM) 中的解码器特征和嵌入映射到 DM 框架的空间中。它在增强模型理解和生成多模态数据的能力、建立高级语言理解与多模态目标生成之间的联系方面,起着至关重要的作用。为了使 3D-VLA 的训练更加高效并避免灾难性遗忘,利用 LoRA (Hu et al., 2021) 来微调不同的扩散模型。同时,只训练新引入的特殊 token 嵌入、相应的嵌入输出线性层和整个投影器。其目标是最小化 LLM 和 DM 去噪损失。

如图是合成的RGBD目标图像例子:

请添加图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值