EmbodiedGPT：通过具身的思维链进行视觉-语言预训练

最新推荐文章于 2025-03-14 21:51:27 发布

三谷秋水

最新推荐文章于 2025-03-14 21:51:27 发布

阅读量1.1k

点赞数 7

分类专栏：大模型智能体计算机视觉文章标签：人工智能计算机视觉机器学习机器人

本文链接：https://blog.csdn.net/yorkhunter/article/details/142244283

版权

大模型同时被 3 个专栏收录

735 篇文章

订阅专栏

智能体

499 篇文章

订阅专栏

计算机视觉

449 篇文章

订阅专栏

23年9月来自香港大学、上海AI实验室和华为诺亚实验室的论文“EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought”。

具身人工智能是机器人技术领域的一个重要前沿，能够规划和执行机器人的动作序列，在物理环境中完成长期任务。这项工作引入 EmbodiedGPT，一种用于具身人工智能的端到端多模态基础模型，为具身智体提供多模态理解和执行能力。为了实现这一目标，做出了以下努力：（i）制作了一个大规模具身规划数据集，称为 EgoCOT。该数据集由从 Ego4D 数据集中精心挑选的视频以及相应的高质量语言指令组成。具体来说，用“思维链”模式生成一系列子目标，实现有效的具身规划。（ii）引入一种有效的 EmbodiedGPT 训练方法，通过前缀-调优将 7B 大语言模型 (LLM) 适配到 EgoCOT 数据集，从而生成高质量的规划。 (iii) 引入一种从 LLM 生成的规划查询中提取任务相关特征的范式，在高级规划和低级控制之间形成闭环。大量实验表明 EmbodiedGPT 在具身任务上是有效的，包括具身规划、具身控制、视觉字幕和视觉问答。值得注意的是，EmbodiedGPT 提取更有效的特征，显著提高具身控制任务的成功率。与使用 Ego4D 数据集微调的 BLIP-2 基线相比，在 Franka Kitchen 基准上的成功率提高 1.6 倍，在 Meta-World 基准上的成功率提高 1.3 倍。

使用可穿戴相机、拍摄的以自我为中心的视频，提供了日常活动的自然视角，并提出了一些具有挑战性的研究问题 [25, 26, 27]。多年来，已经创建了几个以自我为中心的视频数据集，包括 [28, 29, 30]。然而，收集以自我为中心视频的成本很高，而且以前的数据集往往规模较小且针对特定领域。最近，一个庞大的、以自我为中心的视频数据集 Ego4D [16] 已经发布，并已用于具身表征学习。该数据集包含 931 人从 9 个国家/地区的 74 个地点收集的 3,670 小时视频，视频配有旁白。对于具身 AI 任务，从大量多样化以自我为中心的人类视频中学习已成为一种有前途的方法，可以获取用于控制此类任务的普遍有用的视觉表征。例如，R3M [12] 通过结合时间对比学习和视频语言对齐，使用 Ego4D 人类视频数据集开发了一种稀疏而紧凑的视觉表征。 VIP [31] 使用 Ego4D 数据集学习目标条件下机器人操作的通用奖励函数。

如图所示：EmbodiedGPT 的视频字幕、多轮问答、具身规划和低级控制功能。EmbodiedGPT 给出的规划具有高度可执行性，并结合特定任务的功能，从而显著提高具身控制任务的成功率，在 Franka Kitchen [14] 和 Meta-World [15] 环境中的表现均优于 R3M [12]（视频-语言对比学习模型）和 BLIP- 2 [13]（多模态基础模型）。

请添加图片描述

具身基础模型的目标是通过准确感知环境、识别相关目标、分析其空间关系以及制定详细的任务规划来模仿人类的感知和与环境的交互。为了实现这一目标，EmbodiedGPT 采用预训练的视觉Transformer作为视觉编码器，采用预训练的 LLaMA [43] 模型作为语言模型。如图所示，黑色箭头表示视觉-语言规划过程，红色箭头表示利用查询的语言规划在低级控制任务中进行更好的策略学习。

请添加图片描述

其中embodied-former，充当视觉领域和语言领域之间的桥梁，它首先通过基于注意机制的交互（涉及视觉tokens、文本查询和可学习的具身查询）从视觉模型的输出中提取紧凑的视觉特征，然后通过语言映射层将其映射到语言模态。这些嵌入被发送到冻结的 LLaMA [43] 语言模型，用于视觉字幕、视觉问答和具身规划。然后使用生成的规划通过embodied-former从视觉模型编码的一般视觉tokens中查询高度相关的特征。这些特征用于通过下游策略网络生成用于任务执行的低级控制命令。为了提高一系列具身任务的性能，引入一种新视频语言预训练范式，该范式利用认知思维链从自我中心视频输入中产生具身规划。此任务制定为标准 VQA（视觉问答）任务，使用“如何完成该任务 + 原始字幕”作为问题，使用具身规划作为答案。该框架丰富了具身规划和标准视觉问答任务的数据，鼓励embodied former捕获更适合具身控制任务的任务特定特征。

训练过程分为三个阶段，每个阶段都旨在逐步发展推理和规划能力。前两个阶段侧重于基本认知和反应技能的预训练，而第三阶段则涉及使用 EgoCOT 上的自我中心视频文本数据训练具身 AI 任务。在第一阶段，专注于图像文本对话对齐预训练，其中涉及使用三个数据集：COCO Caption [44]、来自 CC3M [45] 的 595,000 个经过精细过滤的图像-文本对，以及使用 BLIP-2 [17] 重新为 LAION-400M 制作字幕，获得 491,000 个经过过滤的图像-文本对。此阶段的主要目标是预训练embodied-former和语言投影，同时保持视觉和语言模型参数不变以节省计算资源。在第二阶段，目标是增强模型理解和生成更复杂句子的能力，并提高其推理能力。更新语言投影和前缀语言适配器，并利用“LLaVA_Instruct_150K”提供的“Complex_Reasoning_77k”和多轮对话数据集，可实现这一点 [46]。

Embodied-former，记为 E(·)，是视觉输入 xvis 和冻结语言模型之间的桥梁，充当向语言模型提供最相关视觉数据的信息颈。Embodied-former包含两个子模块：一个用于从图像输入中提取特征，记为 Evis，另一个用于从文本输入中提取特征，记为 Etxt。用 N 个可学习的具身查询嵌入 yquery 作为 E 的输入，通过交叉注意层与 xvis 交互，通过自注意层与 xtxt 交互。将输出查询表示记为 z。 z 的维度明显小于视觉特征的维度。输出查询嵌入随后被转换为 z，其维度与语言模态中的 LLM 文本嵌入相同。此转换由表示为 M 的映射函数执行，该函数通过全连接 (FC) 层的线性投影完成。投影嵌入 z′ 充当“语言模型的软视觉提示”，将整个交互分解为视觉查询交互和查询文本交互。

最终的具身规划，由语言模型以 z′ 和文本提示作为输入推断出来。对于旨在生成与环境交互动作的低级控制，具身规划 xplan 用作embodied-former的输入文本，查询与任务相关的实例级特征 zinstance = E(xvis, xplan, yquery)。随后，智体能够生成控制命令，例如伺服器的转动角度，表示为 a = g(zinstance, zglobal)。该函数结合了实例特定信息 zinstance 和全局上下文 zglobal。全局上下文是使用在 ImageNet [49] 上预训练的 ResNet50 模型 [48] 推断出来的，采用全局平均池化。这里，g(·) 表示策略网络，它是一个多层感知器 (MLP) [50] 映射函数。策略网络的输出由特定的可执行操作组成，例如笛卡尔坐标系中的位置和速度。

对于 EgoCOT 数据集，从 Ego4D 数据集 [16] 中获取基础数据，其中包括 9,645 个未剪辑的视频，时长从 5 秒到 7 小时不等。为了准备数据，进行了两个阶段的数据清理。

在第一阶段，过滤掉缺少旁白或旁白很短的视频（分别占文本的 7.4% 和 0.9%），以及带有不确定标签的视频（占文本的 4.0%）。还排除没有人与物体交互的视频，例如看电视或走路。经过这个阶段，剩下 2.9 千小时的视频，包含 385 万个旁白，来自 129 个不同的场景，涵盖 2927 小时的视频。

为了生成字幕、具身规划和相应具有时间间隔的视频片段对，使用 EgoVLP 框架 [54] 对视频进行分段。叙述被组织为一系列句子 T0, · · · , Tn，并带有精确的时间戳 t0, · · · , tn，指示所述事件发生的时间。

对于每个视频片段，为 ChatGPT [55] 提供提示和相应的字幕，生成合理且详细的具身规划。字幕通常是简短的介绍，例如“C 打开抽屉”。用 ChatGPT 根据字幕生成思维链，并将其组织成动词-名词对列表，例如“规划：用夹持器抓住手柄并拉动手柄；动作：1. 抓握（手柄，夹持器）2. 拉动（手柄）”。为了增强生成思维链的多样性，用温度参数 0.9 和 top-p 参数 0.95。对于每个提示，执行五次采样迭代。

为了确保生成规划指令的质量，执行了第二阶段的数据清理。用 CLIP 模型 [56] 来评估视频和文本对之间的相似性。对于每个视频，将其与五个潜具身化规划进行比较，并选择相似度最高的一个作为具身化规划的对应标签。然后，过滤掉相似度低于阈值的任何视频-字幕-规划对，将数据清理过程更进一步。消除视频和字幕之间以及视频和规划之间相似度较低的数据，确保 EgoCOT 数据集具有最高质量的数据。对于视频片段的每个关键帧，用 CLIP 模型将文本数据 T 和图像数据 I 编码到共享嵌入空间中。

还专门针对以自我为中心的人-目标交互视频问答任务创建 EgoVQA 数据集，丰富训练数据。对于 Ego4D 数据集中的每个字幕，用 ChatGPT 生成五个 QA 对。为了确保相关性，通过设计提示来引导 ChatGPT 关注核心关键动词和名词。制作 EgoVQA 时的采样方案与 EgoCOT 相同。