3D-VLA：3D 视觉-语言-动作生成世界模型

最新推荐文章于 2025-04-14 23:57:54 发布

三谷秋水

最新推荐文章于 2025-04-14 23:57:54 发布

阅读量1.6k

点赞数 11

分类专栏：智能体机器学习大模型文章标签：计算机视觉人工智能机器人

本文链接：https://blog.csdn.net/yorkhunter/article/details/142113219

版权

大模型同时被 3 个专栏收录

722 篇文章

订阅专栏

机器学习

534 篇文章

订阅专栏

智能体

473 篇文章

订阅专栏

24年3月来自麻省大学、上海交通大学、华南理工大学、武汉大学、麻省理工、加州洛杉矶分校和MIT-IBM Watson AI 实验室的论文“3D-VLA: A 3D Vision-Language-Action Generative World Model”。

最近的视觉-语言-动作 (VLA) 模型依赖于 2D 输入，缺乏与 3D 物理世界更广阔领域的整合。此外，它们通过学习从感知到动作的直接映射来进行动作预测，忽略了世界的广阔动态以及动作与动态之间的关系。相比之下，人类被赋予了描绘未来场景想象的世界模型，相应地规划行动。为此，提出 3D-VLA，通过引入一系列具身基础模型，通过生成世界模型无缝链接 3D 感知、推理和动作。具体而言，3D-VLA 建立在基于 3D 大语言模型 (LLM) 之上，并引入了一组交互tokens来与具身环境互动。此外，为了将生成能力注入模型，训练一系列具身扩散模型并将它们对齐到 LLM 中以预测目标图像和点云。为了训练 3D-VLA，从现有的机器人数据集中提取大量 3D 相关信息，从而整理出一个大规模 3D 具身化指令数据集。在保留的数据集上实验表明，3D-VLA 显著提高具身化环境中的推理、多模态生成和规划能力，展示其在现实世界应用中的潜力。

构建类人的 3D 世界模型不可避免地存在挑战。首先，现有的基础模型专注于语言生成，无法想象语言之外的模态并模拟未来状态以促进动作生成，这是世界模型的一个重要方面。其次，现有的具身数据集主要包含 2D 图像或视频，缺乏用于在 3D 空间中进行推理和规划的 3D 相关注释。

构建这种生成世界模型的另一个挑战在于缺乏数据。正在使用的具身数据集（Open x-embodiment、BC-Z）主要由 2D 图像组成，缺乏 3D 相关信息。因此，策划一个大规模 3D 具身指令调整数据集。

最近，得益于互联网上数十亿级的数据集，VLM 在各种任务中表现出了卓越的能力。同样，由视频-动作对组成的百万级数据集为机器人控制的具身 VLM 奠定了基础。然而，它们大多不提供深度或 3D 注释，也无法在机器人操作中提供精确控制，而这些操作需要包含 3D 空间推理和交互。如果没有 3D 信息，机器人就很难理解和执行需要 3D 空间推理的命令，例如“将最远的杯子放入中间的抽屉”。

为了弥补这一差距，构建一个大规模 3D 具身指令调整数据集，该数据集提供足够的 3D 相关信息以及成对的文本指令来训练模型。设计一个流程来从现有的具身数据集中提取 3D 语言-动作对，从而获得点云、深度图、3D 边框、机器人的 7D 动作和文本描述的注释。

这样一个多样化的数据集，包括机器人操作和人机交互的真实和合成数据。对于缺少深度数据的数据集，用深度估计器来附加必要的 3D 细节并将它们投影到 3D 点云。通过这种方式，收集 2M 个 3D 语言-动作数据对，如图所示。

请添加图片描述

接着，如图所示，首先在 3D-LLM（Hong，2023）之上构建主干模型，并通过添加一系列交互tokens进一步增强模型与 3D 世界交互的能力。接下来，首先预训练具身扩散模型并使用投影器对齐 LLM 和扩散模型，将目标生成能力注入 3D-VLA。

请添加图片描述

具体地，为了增强模型对 3D 场景的理解并促进这些环境中的交互，引入了一组交互tokens。首先，合并目标tokens ，它将解析后的句子中的目标名词括起来（例如，桌子上的一块巧克力棒 [loc tokens]），以便模型可以更好地捕获哪些目标被操作或引用。其次，为了更好地通过语言表示空间信息，设计一组位置tokens 用于定位引用目标，这些目标由 3D 边框的六个tokens表示，形式为 AABB。第三，为了更好地使用框架编码动态，引入 tokens来封闭静态场景的嵌入。通过对场景tokens进行组合，3D-VLA 可以理解动态场景并管理交织 3D 场景和文本的输入。

通过一组扩展的专用tokens来进一步增强架构，这些tokens代表机器人动作。机器人的动作有 7 个自由度，由离散tokens表示，例如、和 <gripper0/1>，表示手臂的预期绝对位置、旋转、夹持器打开度。这些动作由tokens 分隔。

人类会预先想象场景的最终状态，以促进动作预测或决策，这是构建世界模型的关键方面。此外，提供真实的最终状态，可以增强模型的推理和规划能力。然而，训练 MLLM 来生成图像、深度和点云并非易事。

首先，最先进的视频扩散模型并不是针对具身设置量身定制的。例如，当要求 Runway (Esser et al., 2023) 根据“打开抽屉”的指令生成未来帧时，整个场景会在很大程度上改变，包括视图变化、意外的物体变形、奇怪的纹理替换以及布局扭曲。同样，使用 DreamLLM (Dong et al., 2023) 的方法直接冻结在互联网数据上训练的稳定扩散模型，可能会导致输出崩溃。其次，如何将各种模态的扩散模型整合到单一基础模型中仍然是一个挑战。因此，将生成图像、深度和点云的能力注入 3D-VLA。首先根据图像、深度和点云等不同模态对具身的扩散模型进行预训练，然后通过对齐阶段将这些扩散模型的解码器与 3D-VLA 的嵌入空间对齐。

对于 RGBD 到 RGBD 的生成，采用SD V1.4 (Rombach，2022) 作为预训练模型，因为在预训练 VAE (Kingma & Welling，2013) 的潜空间中运行时，潜扩散生成图像的效率和质量较高。将 RGB 潜嵌入和深度潜嵌入连接起来作为图像条件。同样，对于点到点生成，用 Point-E (Nichol，2022) 作为预训练模型，并向其添加点云条件输入。

在对扩散模型进行预训练之后，配备各种解码器，它们可以通过调节其模态中的潜空间来生成目标。如何将预训练的解码器无缝地合并到 LLM 中，以便 3D-VLA 能够针对任何以输入指令为条件的预训练模态生成目标，仍然是一个挑战。

为了弥合 LLM 与不同模态扩散模型（DM）之间的差距，在 3D-VLA 中开发了一个对齐阶段。首先引入额外的特殊tokens，例如和。这些tokens经过精心设计，可告知解码器要输出的模态内容类型。在封闭的 token 之间，监督 LLM 生成供机器人执行的指令，其中可能包括目标 token 和位置 token，例如拿起苹果 [loc tokens] 。在此基础上，可以应用基于 Transformer 的投影器，它能够将大语言模型 (LLM) 中的解码器特征和嵌入映射到 DM 框架的空间中。它在增强模型理解和生成多模态数据的能力、建立高级语言理解与多模态目标生成之间的联系方面，起着至关重要的作用。为了使 3D-VLA 的训练更加高效并避免灾难性遗忘，利用 LoRA (Hu et al., 2021) 来微调不同的扩散模型。同时，只训练新引入的特殊 token 嵌入、相应的嵌入输出线性层和整个投影器。其目标是最小化 LLM 和 DM 去噪损失。

如图是合成的RGBD目标图像例子：

请添加图片描述