VLABench:一个大规模的长范围推理任务语言调节机器人操作基准

24年12月来自的论文“VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks”。

通用具身智体旨在理解用户的自然指令或意图,并精确地采取行动完成通用任务。最近,基于基础模型尤其是视觉-语言-动作模型 (VLA) 的方法已显示出解决语言条件操作 (LCM) 任务的巨大潜力。然而,现有的基准测试不能充分满足 VLA 和相关算法的需求。为了在 LLM 的背景下更好地定义此类通用任务并推进 VLA 的研究,提出 VLABench,一个用于评估通用 LCM 任务学习的开源基准测试。VLABench 提供 100 个精心设计的任务类别,每个任务类别都具有很强的随机性,总共有 2000 多个目标。 VLABench 在四个关键方面超越之前的基准测试:1)需要世界知识和常识迁移的任务,2)具有隐含人类意图而非模板的自然语言指令,3)需要多步推理的长期任务,以及 4)对行动策略和语言模型能力的评估。基准测试评估多种能力,包括对网格和纹理的理解、空间关系、语义指令、物理定律、知识迁移和推理等。为了支持下游的微调,提供通过结合启发式技能和先验信息的自动化框架收集的高质量训练数据。实验结果表明,当前最先进的预训练 VLA 和基于 VLM 的工作流程在任务中都面临挑战。

语言条件操纵(LCM)是具身人工智能的一项基本挑战,也是迈向通用人工智能的垫脚石 [1, 4, 13]。此类任务需要智体掌握多种能力:解释自然语言指令、理解复杂环境、做出决策、制定规划和执行精确操作。大语言模型 (LLM) 和视觉语言模型 (VLM) [1, 14] 的快速发展以其在语义理解、编码、规划和推理方面令人印象深刻的通用能力彻底改变该领域。强大的泛化能力启发两种语言条件操纵(LCM)的主要方法:使用大规模机器人数据预训练视觉-语言-动作模型,如 RT-2 和 Palm-E [4, 13, 46] 所示;将基础模型集成到智体工作流中,如 Vox-Poser 和 Copa [22, 23],它们将 LLM/VLM 输出与抓取预测 [15, 16] 和运动规划算法 [25] 相结合。

虽然现实世界的机器人实验提供有价值的见解,但它们的复杂性和环境多变性往往会挑战可重复性。基于模拟的评估已成为一种公平且实用的替代方案。现有的基准测试如 RLBench、Calvin 和 LIBERO [24, 35, 41] 提供多样化的任务集,但无法满足基于基础模型方法的独特要求。与基于基础模型算法功能保持一致的任务,应包括对用户意图的细致语义理解、常识知识的整合、解释不同视觉场景的强大能力,以及复杂的多步骤推理。此类任务需要对多模态理解进行复杂的整合,以有效地解释和响应复杂的现实世界环境。例如,RT-2 [4] 中的一项任务是“将可乐罐移到泰勒·斯威夫特身边”,而 CoPA [22] 中的另一项任务是“给我泡一杯手冲咖啡”。第一个任务要求机器人使用常识来识别泰勒,这是以前的策略难以实现的知识迁移能力。第二个任务进一步加剧难度,要求机器人将任务分解为子任务并执行操作咖啡机的步骤——这是一项长期挑战,以前的单一策略很难完成。

基准和数据集。已经提出了许多基准,例如 RLBench 和 LIBERO [24、32、35、41、63],用于评估现实物理环境中的语言条件操纵策略。但是,其中大多数都侧重于技能学习,未能充分解决长期规划能力。同时,一些基准 [49、52、60] 解决了需要长期记忆或推理的房间规模移动操纵任务。然而,这些交互通常通过界面而不是直接的物理操纵进行,因而限制学习策略在现实世界场景中的可迁移性。此外,虽然 [19、29、35、43] 在任务格式、难度和规模方面取得长足进步,但这些基准在很大程度上忽视语言在任务中的指导作用,通常依赖于明确指定机器人动作的模板指令。

在真实和模拟中都建立大规模数据集 [5、43、46、57],用于大规模模仿学习以进行操作。然而,现实世界的数据面临着与规模化相关的挑战,因此很难大规模收集足够的数据 [3]。模拟数据集虽然更具可扩展性,但场景和任务的多样性往往有限 [24, 41],并且仍然需要遥操作 [18, 35] 来收集数据。

预训练视觉-语言-动作模型。最近兴起的多模态模型 [1, 12, 37, 62] 以及操作数据集的收集和组织 [45, 57] 已导致视觉-语言-动作模型 (VLA) [3, 4, 13, 27] 集成到语言条件操作(LCM)任务中。虽然 VLA 一词通常指结合视觉和语言输入进行策略学习的模型,但本文特别关注利用预训练模型的方法。一些研究 [3、13、27] 已将进一步训练应用于预训练的视觉语言模型 (VLM),以进行语言条件操作(VLM)。这些模型对未见过的目标和任务表现出令人印象深刻的泛化能力,但它们的控制精度在一定程度上受到动作离散化的限制 [47]。为了解决这一限制,一些方法探索使用扩散模型 [8、47] 作为策略网络或使用扩散解码器 [31、59]。基于扩散模型的预训练模型 [34、40] 在改进连续空间分布学习方面显示出有希望的进步。

利用基础模型的框架。预训练语言模型 [5、14、50] 和视觉语言模型 [1、39] 表现出强大的泛化能力和多功能性。一些研究人员 [22, 23, 36] 将这些预训练模型的一般感知和认知能力与传统规划和控制算法相结合,创建智体工作流。这些框架允许机器人执行复杂的零样本操作任务,而无需额外的训练。为了利用基础模型的操作能力,一些研究 [23, 33] 利用大语言模型的代码理解和生成能力以及运动规划优化算法来解决基本的操作任务。此外,一些方法 [21, 22] 利用大模型将长期任务分解为子任务,然后集成感知和轨迹生成模块来构建整个操作流程。然而,大多数此类零样本方法严重依赖于提示设计 [23]、每个模块的准确性,甚至是所调用模型的具体参数 [22]。虽然这些方法表现出很强的泛化能力,但它们往往面临准确性的挑战。

为了更好地定义适合基础模型的语言条件操作(LCM)任务类型并提供标准化的评估套件来推进机器人研究,引入 VLABench。VLABench 是一个开源基准测试,专门为利用基础模型的方法而设计。VLABench 中的任务被仔细分为几个维度,以从各个方面评估模型,包括 1)掌握常识和世界知识,2)理解网格和纹理,3)理解语义丰富的指令,4)空间理解,5)掌握物理规则,6)推理能力。为了进行基准测试,VLABench 提供 100 个任务类别,并对各种方法进行全面的评估。凭借超过 2,000 个 3D 目标和场景的多样化集合,VLABench 创建广泛的视觉环境和任务。它能够通过多种技能的学习来评估泛化能力,提供涵盖视觉、语言、规划、知识转移和行动维度的全面评估。VLABench概述如图所示:

请添加图片描述

VLABench 首次将自然人机交互、隐式目标导向语义和基于常识的要求等特性引入机器人操作任务,如图所示。在泛化评估方面,以前的研究 [24、35、41] 通常在同一类别的实例级别评估模型,这限制它们去评估跨不同目标类别或同一技能集内不同任务泛化能力。相比之下,VLABench 是第一个评估跨广泛任务、目标类型和任务类别的泛化能力的基准,为模型多功能性提供更全面的评估。VLABench 通过提供与现实世界条件更紧密相关更广泛的任务来解决规模化限制,涵盖视觉、语言、任务和技能的各个方面。此外,它还引入一种高效且强大的模拟数据自动生成过程,大大增强任务多样性和规模化。

请添加图片描述

VLABench 由 60 个基本任务和 40 个复合任务组成,按任务难度和所需时间步骤分类。这些任务旨在涵盖丰富的技能,同时涵盖充足的视觉和语言语义信息。对于技能学习,VLABench 中的 100 个任务涵盖范围广泛,包括 1) 拾取和放置、2) 打开和关闭门、3) 打开和关闭抽屉、4) 将物体挂在墙上、5) 使用工具(例如锤子钉子)、6) 按下按钮、7) 插入、8) 倒出、9) 扭转和 10) 探索。此外,VLABench 更加注重现实场景和日常基本任务,代表更多交互式语言指令、更广泛的任务设置、常识和社会知识的融合以及需要逻辑规划的长期任务,如图所示。值得注意的是,VLABench 对任务泛化采用更严格的定义。

请添加图片描述

模拟器。VLABench 基于 Mujoco[55] 及其控制套件 dm control[56] 构建。选择 Mujoco 作为基准测试的核心模拟平台,因为它具有轻量级设计、高性能和出色的物理真实感。这些进步使得对各种算法进行方便、快速的评估成为可能。VLABench 框架高度模块化,这意味着可以灵活组合各种目标实体来创建大规模和多样化的任务和场景。

资产。为了满足多样化任务和能力评估的要求,围绕多个任务主题构建一个资产库。从 Robocasa [43] 继承一些带注释的资产,并从 Objaverse[11] 中检索大量 3D 模型。对于新任务,例如围绕玩具主题创建的一系列任务,从在线 3D 模型站点仔细收集各种高质量的角色模型。然后使用 obj2mjcf [61] 工具将这些模型转换为 MJCF 格式。与之前的工作 [29, 43] 类似,用生成式 AI 模型扩展常见简单目标的数据集。具体来说,用 Tripo.aI 的文本转 3D 和图像转 3D 功能构建其他 3D 目标,并利用 Runaway.ai 生成多种材质纹理。最终,构建的资产库包含 163 类目标,共计 2164 项。

机器人。为确保多功能性和广泛适用性,集成一系列实施方案类型。这些包括但不限于各种型号的 6 轴和 7 轴机械臂、双臂机器人和人形机器人。在标准评估过程中,VLABench 采用配备平行夹持器的 7 自由度 Franka Emika Panda 机械手。用三维坐标表示位置,四元数表示方向,在欧氏空间 R3 中表示机器人末端执行器的位置和方向。然后,利用逆运动学,将这些末端执行器姿态解析为七个关节的相应旋转角度。

域随机化。为确保数据多样性和丰富性,实现各种类型的域随机化。这些随机化包括目标位置和方向、网格比例、场景布局、背景和物体纹理(如墙壁、地板和桌面)以及照明参数。

轨迹生成。由于人类遥操作耗时且不可扩展 [35, 43],基于自定义技能库开发高效、可扩展的自动数据收集流水线。受 [18] 的启发,数据收集框架利用先前的信息,包括环境的点云、实体的抓取点、当前步骤的目标实体等。数据收集框架包括多个特定于任务的运动规划器。这些运动规划器根据当前任务进度调用技能库中的技能,并通过结合先验信息确定参数。随后,选定的技能使用 RRT [26] 生成轨迹,并通过球面线性插值 (SLERP) 实现四元数插值。使用贝塞尔曲线平滑最终轨迹以优化路径质量。为了提高数据收集过程中的样本效率,应用拒绝采样和故障触发早期终止。

指令增强。用 GPT-4 [1] 来生成包含目标特定特征的描述和涵盖各种上下文和意图的交互式指令。

为了研究泛化问题,在高质量数据集上对各种预训练的 VLA 架构进行微调,包括 OpenVLA、Octo 和 RDT-1B [27、40、54]。复合任务要求跨语言、视觉、常识和长期推理进行泛化,从而需要整合多种技能。为了评估泛化能力,选择原始任务作为评估的基础。在每一类原始任务中,网格和纹理(基础)任务、常识和世界知识任务以及语义任务共享相似的任务设置和轨迹。因此,选择在每个任务类别上对基础数据和常识数据进行联合训练,并在不同的设置下进行评估。在微调阶段,从每个任务类别中抽取 100 条轨迹,总共得到 1,600 条轨迹,以确保在任务之间的均衡表示。对于复杂的任务,在每个任务的领域内分别进行微调,并独立进行评估。

如图说明 VLABench 中专为 VLM 设计的简化评估流程。首先,通过初始化一系列任务场景来生成评估数据集,每个任务场景都与两个四视角图相关联:一个带有掩码和标签注释,以识别不同的实体段,另一个用作没有注释的参考图,如图的数据制作模块所示。从 GPT4 中随机选择的与任务相关的语言指令伴随这些图表,形成视觉语言模型 (VLM) 的输入。

请添加图片描述

在推理期间,提供技能库的详细描述、输出格式的要求以及不同设置下的几个小样本示例。这些元素共同构成查询 VLM 的系统提示。VLM 需要生成由一系列技能组成的 DSL 输出,其中每个技能都包含一个名称和相关参数,符合预定义的模式以实现系统评估。

然后,根据生成的技能序列的逻辑依赖关系将生成的技能序列构建成有向图。随后,将这些 DAG 与参考 DAG 进行匹配,并根据四个指标进行评分。最后,使用加权聚合将分数合并,以计算每个模型的总分。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值