三维世界中的具身通才智体

硅谷秋水

于 2024-09-30 01:35:00 发布

阅读量421

点赞数 9

分类专栏：智能体大模型计算机视觉文章标签：机器人人工智能机器学习语言模型计算机视觉

本文链接：https://blog.csdn.net/yorkhunter/article/details/142428285

版权

大模型同时被 3 个专栏收录

449 篇文章 7 订阅

订阅专栏

智能体

191 篇文章 0 订阅

订阅专栏

计算机视觉

156 篇文章 0 订阅

订阅专栏

23年11月来自北京通智、北大、CMU和清华的论文“An embodied generalist agent in 3d world”。

利用来自大语言模型 (LLM) 的海量知识和学习方案，最近的机器学习模型在构建通用智体方面取得了显著的成功，这些智体表现出在自然语言处理、计算机视觉和机器人技术等不同领域解决通用任务的能力。然而，由于这些模型在 3D 世界理解和交互方面的能力有限，因此仍然存在重大挑战。这种限制严重阻碍了当前模型执行现实世界的任务以及进一步的通用智能。为此，引入一个体现多模态和多任务的通才智体，它擅长在 3D 世界中感知、接地、推理、规划和行动。智体称为 LEO，使用基于共享 LLM 的模型架构、目标和权重进行两个阶段的训练：(i) 3D 视觉-语言对齐和 (ii) 3D 视觉-语言-动作指令调整。为了便于训练，策划并生成一个庞大的数据集，其中包含目标级和场景级多模态任务，这些任务的规模和复杂性都超出了预期，需要对 3D 世界有深入的理解和互动。通过严格的实验，证明 LEO 在各种任务中的出色能力，包括 3D 字幕、问答、具身推理、具身导航和机器人操控。

构建一个能够像人类一样完成综合任务的通才模型，一直是人工智能和神经科学领域的长期追求（Lake，2015；2017；Zhu，2020；Mountcastle，1979；Schmidhuber，2018；Huang，2022a）。大语言模型 (LLM)（Brown，2020）和“基础模型”（Bommasani，2021）的最新进展成为在自然语言处理（OpenAI，2022；2023）、计算机视觉（Kirillov，2023）和机器人技术（Brohan，2022；2023）中构建此类通才模型的有前途范例。这一范式成功的关键，在于来自众多任务和领域的大规模互联网级数据集，以及可扩展的 Transformer 架构（Vaswani，2017），该架构可以从数据中吸收可泛化和与任务无关的知识。此类努力进一步扩展到多模态（Alayrac，2022；Lu，2023；Li，2023c）和通才模型（Reed，2022；Driess，2023），其中智体可以根据语言指定的任务描述解决多功能任务，并表现出对新情况的一定泛化能力。尽管如此，它们的能力主要在 2D 领域内得到体现，从而限制对包围人类和其他智能物种 3D 物理环境的理解。这种限制成为一种障碍，阻止当前模型成功执行现实世界的任务并实现通用智能。因此，提出一个基本问题：如何让通才智体全面理解真实 3D 世界并与之互动？

此类通才智体的开发面临三个主要挑战：创建合适的数据集、设计统一的模型以及设计有效的学习策略。尽管在扩展图像文本模型（Tsimpoukelli，2021；Alayrac，2022）和相应数据集的整理（Radford，2021；Schuhmann，2022）方面取得了实质性进展，但 3D 场景级理解的进步却明显落后。这在很大程度上归因于 3D 数据集的规模有限和手动标记（Dai，2017；Wald，2019；Chen，2020），因为与 2D 数据相比，收集 3D 数据的成本更高。此外，以前的模型通常都是用强先验设计的（Zhao，2021；Chen，2022），对基于 LLM 的大规模统一预训练和高效微调的探索有限。值得注意的是，最近的研究（Zhu，2023c；Hong，2023）利用统一的 Transformers 或 LLM 来增强模型在扎实 3D 场景理解中的能力。然而，它们仍然缺乏在 3D 环境中行动的能力，也缺乏释放 LLM 进行 3D 视觉-语言-动作 (VLA) 学习的努力。如何为 3D 智体配备一个简单的统一架构和有效的学习策略来建立 VLA 能力仍然很少被探索。

如图所示所提出的具身通才智体 LEO。它以自我为中心的 2D 图像、3D 点云和文本作为输入，并将综合 3D 任务制定为自回归序列预测。通过微调 LEO，它用统一模型将 LLM 的功能扩展到多模态视觉-语言-动作任务。

请添加图片描述

遵循 2D VLM（Liu，2023b；Alayrac，2022）和 3D VLM（Zhu，2023c）中的先前做法，标记 LEO 中的多模态数据。用 SentencePiece token化器（Kudo & Richardson，2018）对带有 32k 个子词的文本进行编码；对以自我为中心的 2D 图像使用 2D 图像 tokens；以及通过基于 Mask3D（Schult，2022）的目标提议提取的以目标为中心的 3D tokens，用于 3D 点云输入。对于具身化的动作命令，连续动作（例如在操作中）被离散化以连接离散动作（例如导航）并形成统一的离散动作空间。遵循（Brohan 2023）将这些离散动作映射到 SentencePiece 中使用最少的tokens。token化后，所有token 排序。

应用多个 token 嵌入函数来处理序列中的 token，然后将它们发送到 LLM。然后，LLM 将对齐这些不同模态的 token，并生成响应。大多数响应都是文本，可以直接解码。对于包含具体操作的响应，会将保留的 SentencePiece 文本 token 映射回操作命令。

文本和 2D token 嵌入。对于文本 token（包括已映射到保留文本 token 的具身动作），使用嵌入查找表将它们映射到向量中。而以自我为中心的 2D 图像由预训练的 OpenCLIP ConvNext（Liu et al.，2022）编码以获得图像 token 嵌入。应用 MLP 适配器来匹配所有 token 嵌入的尺寸。

以目标为中心的 3D token 嵌入。每个 3D 目标 token（即 3D 目标的点云）首先由预训练的点云编码器（例如 PointNet++ (Qi et al., 2017)）进行编码。然后，采用 Chen et al. (2022) 中引入的Spatial Transformer，将所有目标的点云嵌入进一步处理为以目标为中心的 3D token 嵌入。简而言之，Spatial Transformer使用相对位置和大小对标准注意分数进行偏置，以捕捉目标之间的 3D 关系。

预训练的 LLM。选择 Vicuna-7B (Chiang, 2023) 来处理 token 序列。为了解决多模态tokens（2D、3D、文本、具身动作）的具有挑战性的对齐和接地问题，同时保留 LLM 预训练知识，采用 LoRA（Hu，2022）为冻结的预训练 LLM 引入额外的可调参数。

按照 (Brown，2020；Raffel，2020) 的方式，以前缀语言建模的方式制定 LEO 的学习目标。

在训练期间，冻结预训练的 3D 点云编码器和 LLM，并微调 2D 图像编码器、Spatial Transformer和 LoRA 参数。总的来说，LEO 有约 70 亿个参数，其中约 14200 万个需要调整。在推理期间，用波束搜索来生成文本响应。对于需要操作命令的任务，将文本输出映射到动作命令。

由于 LEO 是一个通用智体，能够接收多模态输入并遵循指令，采用了（Liu，2023b）提出的两步训练方法，并将数据分为两组：（i）LEO-align 专注于目标级和场景级的 3D 视觉语言对齐，以弥合 3D 场景表示和自然语言之间的差距；（ii）LEO-instruct 旨在调整 3D-VLA 指令，使 LEO 具有在 3D 世界中完成感知、推理和行动等各种任务的通用能力。下表提供了两组数据的统计：

请添加图片描述

在 LEO-align 中，遵循 BLIP-2（Li，2023d）提出的对齐方法，并训练模型遵循给定 3D 输入的字幕指令。对齐后，LEO 将调整去遵循指令并完成各种 3D VLA 任务。如图概述生成的数据：带有 3D 场景图的消息，包括短语形式的目标属性和关系，用于在提示 LLM 时提供场景背景。（右上）对原始 LLM 响应进人工定义的细化程序，以提高数据质量。（下）LEO-align 和 LEO-instruct 中 LLM 辅助生成的示例。

请添加图片描述

对 LEO 进行全方位的 3D 具身任务评估，全面展示 LEO 的能力，包括感知、基础、推理、规划和行动。提供 LEO 与竞争性任务特定基线之间的定量比较以及定性可视化，如图所示，展示 LEO 作为具身多面手智体的强大功能。

请添加图片描述

从智体的自我中心视角理解和推理 3D 场景中的目标属性、目标关系和其他方面，是 3D 世界中具身通才智体的基本能力。研究 LEO 在 3D VL 理解和具身推理任务中的表现，尤其是与特定于任务的模型和现有的通才智体进行比较时。具体来说，考虑三个著名的 3D 任务：Scan2Cap 上的 3D 字幕（Chen，2021）、ScanQA 上的 3D QA（Azuma，2022）和 SQA3D 上的 3D 具身推理（Ma，2023）。通过提示 LEO 遵循这些任务的指令，遵循标准评估指标来报告开放式 VL 生成的常规字幕分数（CIDEr、BLEU、METEOR 和 ROUGE）和 SentenceSim（Reimers & Gurevych，2019），以及 QA 任务的精确匹配准确度。遵循 3D-VisTA（Zhu，2023c），在以目标为中心的 3D 编码器中使用来自 Mask3D（Schult，2022）的目标提议。

基于 3D VL 理解和推理，预计 LEO 将支持与人类用户进行更复杂、更扎实的交互，即在 3D 世界中响应复杂的多轮用户指令。为了验证这些功能，选择了两个任务：3D 对话和场景-觉察任务规划。从 LEO-instruct 的保留测试集中提供了未见过场景的定性示例，突出了 LEO 在指令遵循和场景落地响应方面的优点。

最后，希望直接探索 LEO 在 3D 世界中的具身行为和交互能力。选择两个典型的具身 AI 任务：在 AI Habitat 上使用 ObjNav 进行具身导航（Ramrakhya，2022）和在 CLIPort 上进行机器人操作（Shridhar，2021）。具体来说，对于 ObjNav，虽然 LEO 是在定制数据集上训练的，但场景都包含在原始 MP3D ObjNav 训练分割中（Savva，2019）。因此，仍然根据基线在原始 MP3D ObjNav 验证分割上评估 LEO。此外，还在新引入的 HM3D ObjNav 任务的验证分割上测试 LEO（Ramakrishnan，2021）。按照 Ramrakhya（2022）报告成功率和 SPL 指标。对于 CLIPort 机器人操作，在下表中列出的三个训练任务及其对应的未见任务上对 LEO 进行评估，并报告评估过程中的平均奖励。