Surfer：利用世界模型进行机器人操控的渐进推理

硅谷秋水

于 2024-09-03 00:16:23 发布

阅读量571

点赞数 23

分类专栏：智能体机器学习计算机视觉文章标签：机器人人工智能计算机视觉深度学习

本文链接：https://blog.csdn.net/yorkhunter/article/details/141763355

版权

机器学习同时被 3 个专栏收录

226 篇文章 1 订阅

订阅专栏

智能体

130 篇文章 0 订阅

订阅专栏

计算机视觉

116 篇文章 0 订阅

订阅专栏

24年3月来自中山大学、Monash 大学、Datta Robotics 和阿联酋穆罕默德·本·扎耶德 AI 大学（MBZUAI）的论文“Surfer: Progressive Reasoning with World Models for Robotic Manipulation”。

如何让模型准确理解和遵循自然语言指令，并做出符合世界知识的动作，是机器人操控的关键挑战。这主要包括人类模糊指令推理和物理知识的遵循。因此，具身智体必须具备从训练数据中建模世界知识的能力。然而，现有的大多数视觉和语言机器人操控方法，主要在不太真实的模拟器和语言环境中运行，缺乏对世界知识的明确建模。为了弥补这一差距，引入一个新而简单的机器人操控框架，称为 Surfer。它基于世界模型，将机器人操控视为视觉场景的状态转移，并将其解耦为动作和场景两部分。然后，通过对多模态信息中的动作和场景预测进行明确建模，增强模型对新指令和新场景的泛化能力。除了框架之外，基于 MuJoCo 物理引擎构建一个支持全物理执行的机器人操控模拟器。它可以自动生成演示训练数据和测试数据，有效降低人工成本。为了对机器人操作模型在语言理解和物理执行方面的性能进行全面而系统的评估，还创建一个具有渐进推理任务的机器人操作基准，称为 SeaWave。它包含 4 个级别的渐进推理任务，可以为多模态环境中的嵌入式 AI 智体提供标准化的测试平台。大量实验表明，Surfer 在所有操作任务中的表现始终远超所有基线。

机器人操控（RM）是实现具身AI的关键，要求机器人能够理解和遵循用户指令，并根据自身状态和外部视觉做出合理的动作反馈，通常要求机器人对新指令、新场景具有较强的泛化能力。以往的端到端机器人学习[18,21,22,65]通常针对特定任务进行设计，模型缺乏对新任务的泛化能力，这需要搭建大数据集、设计合适的模型。为此，RT-1[3]花费大量时间收集大量真实机器数据，设计了基于Transformer的通用机器人操控模型。但如图a所示，其忽略了对机器人操控场景变化的学习，导致机器人操控性能不理想。

请添加图片描述

近年来，随着多模态大模型 [19,35] 的快速发展，它鼓励人们将各种视觉语言信息与机器人操作相结合，有助于提高具身AI智体感知外部环境和解析指令的能力。受此启发，RT-2 [69]、RT-X [50] 和 RoboFlamingo [26] 尝试将机器人操作动作与大规模视觉-语言数据相结合，帮助模型实现更好的泛化能力。然而，虽然他们使用了大量多模态数据，但并没有同时对机器人的动作执行和操作场景变化进行建模。同样，GR-1 [59] 首先在大规模视频数据上进行视频预测预训练，然后在机器人数据上进行微调。然而，GR-1 [59] 没有探究机器人操控与场景变化之间的逻辑联系，不利于模型理解物理操控可能对现实世界场景变化产生的影响，导致对动作执行可能出现的物理世界场景变化缺乏预测能力。

此外，基于强化学习的智体通常需要与环境进行过多的交互才能学习成功的操控技能 [60]，而这在很多环境中是不允许的。世界模型 [13] 通过预测未来结果 [8,9]，允许以最少的现实世界交互进行规划和行为学习。它可以总结关于环境的一般动态知识，并有效地将其推广到广泛的下游任务 [40]。为此，最新的工作尝试将世界模型结合到视频游戏 [14,23] 和机器人控制任务 [23,41,60] 等任务中，减少在环境中试错的成本，提高学习效率和准确性。例如，DayDreamer [60] 将世界模型与机器人深度融合，帮助模型实现更快的学习。RAP [15] 尝试将 LLM 重新定义为世界模型，以执行逻辑推理，用于数学推理、具身环境计划生成等任务。MWM [41] 基于掩码自动编码器 [16] 构建世界模型，帮助机器人学习通用的视觉表征。然而，他们都没有研究世界模型对复杂视觉和语言环境中机器人操控的影响。

目标是构建一个具身AI的智体模型，能够在复杂的视觉和语言指令下执行与世界逻辑知识一致的操作。为此，提出一种具有世界模型推理能力的新型机器人操作器——Surfer。Surfer 的整体框架如图所示。

请添加图片描述

如上图a 所示，编码器主要包含三种类型的输入：图像 {It-k:t, It+1}、机器人状态 St-k:t 和文本 P。对于 RGB 图像 I，用预训练的 CLIP [34] 视觉编码器进行编码。为了加快推理速度，用 TokenLearner [39] 来压缩 token 的数量。具体来说，TokenLearner 将 CLIP 视觉编码器输出的 49 个视觉 token 压缩为 8 个最终 token。对于指令 P 和机器人状态 St-k:t，分别使用预训练的 CLIP 文本编码器和简单的 MLP 对它们进行编码。

世界模型主要由两个模块组成：动作预测 Eap 和场景预测 Esp。如上图b所示，动作预测模块由L个标准Transformer解码器层[49]堆叠而成。每个标准Transformer解码器层由三个模块组成，按以下顺序处理查询特征：自注意模块、交叉注意和前馈网络（FFN）。动作预测模块以 It-k:t 为输入，St-k:t 和 P 由一系列交叉注意层调节。也就是说，按照[36]，用动作帧编码 It-k:t 作为交叉注意层的输入 q，将指令编码 P 和机器人状态St-k:t的连接嵌入作为 k，v 来执行动作预测。

另外，如上图c所示，基于世界模型在时间序列上的推理优势，与动作预测模块类似，用动作帧编码 St-k:t 和预测动作 At-k:t 作为场景预测模块的输入，预测下一个动作帧 It+1，并与动作轨迹中的真值 It+1 形成监督。

为了方便、公平地比较不同基线模型下机器人理解和执行人类自然语言指令的成功率，该工作基于 UE5 构建一个餐厅场景模拟器，用于研究机器人操控。如图 (a) 显示该餐厅模拟器的整体场景图。它包含 139 个目标类别，图(b) 显示模拟器目标库的子集，其中包含各种形状和用途的常见目标。为了添加更多高质量的铰接式目标，模拟器还支持引入 PartNetMobility [61]，这是目前质量最高、规模最大的铰接式目标数据集。

请添加图片描述

此外，定义几种常见的机器人操控技巧，以更好地模拟机器人在日常环境中的工作方式。这些任务被详细分类并列于下表中。这保证了通用机器人操控环境的构建以及复杂多样的人类自然语言指令设计。

请添加图片描述

总的来说，SeaWave 基准设计一个通用流水线，如图所示，主要由三部分组成：自动场景生成、自动指令生成和机器人操作。（i）自动场景生成，负责生成丰富多样的场景供智体训练和测试。（ii）此外，获取大规模复杂、高质量的人类自然语言指令成本高昂且困难重重，为此设计一个使用 LLM 模拟人类自然语言指令生成的模块（例如 ChatGPT [31]），为机器人操作提供充足、高质量的自然语言指令。（iii）最后，将生成的视觉场景和自然语言指令输入机器人，控制机器人执行相应的操作。此外，还提供自动机器人演示生成的详细指令，这有助于更方便地收集训练数据。

请添加图片描述

自然语言是人机交互最直接、最有效的方式之一，然而由于外部视觉场景和人类自然语言指令的复杂性和多变性，理解和执行这些指令成为具身智能研究的关键挑战之一。为了系统地分析和研究这些挑战，根据指令的复杂程度和操作的难易程度，将任务分为四个等级。
具体内容如下：

等级1：场景中只包含一个目标，机器人接收由动词+名词组成的显式机器语言命令，用于评估模型的基本操控能力。
等级2：该任务场景包含多个目标，自然语言指令中明确包含目标的名称，用于评估模型对常规自然语言指令的理解能力。
等级3：该任务场景包含多个目标，但自然语言指令中不包含目标的名称，只提供与目标功能相关的表达，用于评估模型推断人类指令意图的能力。
等级 4：此任务场景包含多个目标，自然语言指令不包含目标的名称，仅提供与目标的功能、外观或位置相关的表达。此指令要求模型同时具备强大的视觉和语言信息处理能力，用于评估模型的视觉感知和决策能力。

总体而言，分别为四个等级的任务生成 80、240、858 和 2267 条指令。在下表中总结这四个等级任务的主要设置：

请添加图片描述

在实验中，选择最先进的架构 BC-Z [18]、Gato [38] 和 RT-1 [3] 作为 SeaWave 基准的基线模型。这些模型可以通过接收多模态指令信息有效地控制机器人完成指定的操作任务。在设置中训练和测试这些基线模型，以全面评估提出的SeaWave基准。具体来说，上述基线模型的实现细节如下：

BC-Z [18] 包括一个预训练的多语言句子编码器、一个 FiLM 编码器和一个两层 MLP，用于解码机器人动作。在实验中，文本编码器使用 T5Adapter [37] 实现。

Gato [38] 定义三种不同的方法来嵌入图像、连续值序列以及离散值序列。在实验中，图像按光栅顺序分成patches，就像 Gato 一样。之后，使用具有预定义patch位置信息的残差编码器嵌入块。不提供连续值。此外，指令以离散值序列的形式给出，但为了公平比较，直接采用 T5Adapter [37] 来获取语言嵌入，而不是 SentencePiece 编码。仅解码器的 Transformer 充当主干。但在实验中，正如 RT-1 [3] 所建议的那样，模型大小被限制为与 BC-Z 和 RT-1 相似，这意味着在比较中将使用 Gato 的微型版本。

RT-1 [3] 由用于指令嵌入的通用句子编码器、用于编码图像的语言条件模型 FiLM [33]、用于减少tokens数量的 TokenLearner [39] 和用于输出token化机器人动作的仅解码器 Trasformer 组成。本文用上述基线中采用的相同文本编码器。

对 Surfer 在四个难度等级的渐进推理任务上进行综合评估。如图 b 所示，Surfer 在所有四个级别的操控任务中均显著优于其他基线。具体来说，与 RT-1 相比，Surfer 在 SeaWave 基准定义的四个等级任务上平均提升了 7.1% 的操控成功率，在需要视觉和语言紧密结合进行推理的 4 级任务上提升了 3.15%。

请添加图片描述

下表是SeaWave和其他几个机器人操作基准的比较：其中 “Full-physics”是指一切都基于物理引擎实现，不依赖现有的接口，“AutoData”是指自动生成测试数据和演示训练数据。

请添加图片描述

总体而言，本文提出一个简单、有效、带有世界模型的机器人操控模型 Surfer，并构建一个基于 MuJoCo 物理引擎、带有渐进推理任务的机器人操控基准 SeaWave。

硅谷秋水

关注

23
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Surfer：利用世界模型进行机器人操控的渐进推理

24年3月来自中山大学、Monash 大学、Datta Robotics 和阿联酋穆罕默德·本·扎耶德 AI 大学（MBZUAI）的论文“Surfer: Progressive Reasoning with World Models for Robotic Manipulation”。
复制链接

扫一扫

专栏目录