RoboMIND：机器人操作多-具身智能规范数据基准

三谷秋水

已于 2025-01-09 13:37:24 修改

阅读量1.3k

点赞数 20

分类专栏：智能体人工智能机器学习文章标签：机器人大数据语言模型机器学习计算机视觉人工智能

于 2025-01-02 00:03:13 首次发布

本文链接：https://blog.csdn.net/yorkhunter/article/details/144798248

版权

机器学习同时被 3 个专栏收录

536 篇文章

订阅专栏

智能体

475 篇文章

订阅专栏

人工智能

424 篇文章

订阅专栏

24年12月来自北京人形机器人创新中心、北大和北京智源研究院的论文“RoboMIND: Benchmark on Multi-embodiment Intelligence“。

开发稳健且通用的机器人操作策略，是机器人领域的一个关键目标。为了实现有效的泛化，必须构建包含大量演示轨迹和各种任务的综合数据集。与可以从互联网上收集的视觉或语言数据不同，机器人数据集需要详细的观察和操作动作，需要在硬件软件基础设施和人力方面投入大量资金。虽然现有的工作主要集中在组装各种单独的机器人数据集，但仍然缺乏统一的数据收集标准，任务、场景和机器人类型的多样性也不足。本文介绍 RoboMIND（机器人操作多-具身智能的规范数据），它包含 55,000 条真实世界的演示轨迹，涉及 61 个不同目标类别的 279 个不同任务。

RoboMIND 通过人类遥操作收集，涵盖全面的机器人相关信息，包括多视角 RGB-D 图像、本体感受机器人状态信息、末端执行器细节和语言任务描述。为确保策略学习期间数据集的一致性和可靠性，RoboMIND 建立在统一的数据收集平台和标准化协议之上，涵盖四种不同的机器人形态：Franka Emika Panda、UR-5e、AgileX 双臂机器人和具有双灵巧手的 Tien Kung 人形机器人。此外，在 Isaac Sim 模拟器中创建一个数字孪生环境，具有与其真实世界数据集相同的任务和资产。这种模拟环境不仅有助于低成本收集额外的训练数据，而且还能够进行高效的评估。对 RoboMIND 进行多维度的全面定量和定性分析，对数据集的多样性提供详细的见解。在实验中对四种最先进的模仿学习方法进行广泛的真实世界测试，结果表明，使用 RoboMIND 数据进行训练，可实现较高的操作成功率和较强的泛化能力。此外，对失败原因的调查也揭示有希望的改进方向。

如图所示RoboMIND 概述，四个饼图分别表示：(a) 按实例分类的总轨迹，(b) 按实例分类的轨迹长度，© 按任务类别分组的总轨迹，以及 (d) 基于目标使用场景的总轨迹。

请添加图片描述

机器人领域任何专业人士的愿望之一就是开发一种多功能、通用的机器人模型，能够执行广泛的现实世界任务。具体而言，此类模型应具有泛化能力，以便在各种条件下（例如新机器人、不熟悉的环境或不同的目标）执行预期的操作任务 [42、43、64、54、53、11]。为了实现这种程度的泛化，研究人员从计算机视觉和自然语言处理中大型模型的训练中汲取了灵感，在这些模型中，丰富多样的数据集已被证明至关重要 [1、51、78、82、26、47]。他们得出结论，对于训练可推广的机器人模型，最关键的要素之一是获取涵盖各种场景、任务和机器人类型的丰富多样的训练数据。这种多样性可确保模型学会在不同条件和环境下可靠地执行 [11、25、58、79、64、74]。因此，这项工作旨在构建全面的数据集，捕捉广泛的机器人交互和经验，以促进能够掌握各种操作策略的训练模型。

然而，为训练通用机器人模型而整理大规模数据集带来了重大挑战。与通常可以通过基于网络的收集方法获得的视觉或语言数据的获取 [26, 47] 不同，收集机器人数据很困难，因为这些数据无法通过传统的互联网抓取方法轻松获得，因为它需要受控环境，其中机器人系统的关节和末端执行器信息被细致地记录下来。此外，扩大数据收集工作需要在硬件和软件基础设施方面进行大量投资，并需要人力进行监督，特别是在获取和整理高质量演示数据方面 [83, 42, 64]。因此，即使是目前使用的最通用的机器人操作策略也主要是在受限条件下收集的数据集上进行训练的，这些数据集在场景、任务和实施方案方面提供的多样性有限 [64]。

机器人操作。传统的操作策略通常依赖于基于状态的强化学习（RL） [3, 38, 90]。相比之下，最近的研究 [23, 61, 24] 将视觉观察作为输入来预测动作姿势。特别是模仿学习（IL）策略，使机器人能够通过示范模仿专家来获得稳定的操作技能 [20, 85, 91]。在基于扩散的生成模型 [34, 71, 77] 的推动下，扩散策略 [12] 和后续研究 [66, 68, 86] 专注于将随机高斯噪声转换为连贯的动作序列，其中 DP3 [92] 和 3D Diffuser Actor [41] 等方法进一步增强了 3D 空间中的这一过程。另一方面，一些多模态大语言模型 (LLM) [2, 21, 36] 使机器人能够理解自然语言和视觉场景，自动生成任务规划。同时，视觉-语言-动作 (VLA) 模型 [95, 50, 49, 53, 43] 使 LLM 能够预测低级 SE(3) 姿势，在不同场景中表现出可解释性和泛化性。鉴于 3D 空间信息在复杂操作任务中的关键作用，一些研究 [94, 29, 76, 27] 探索点云数据或多视图图像的编码以进行 3D 模仿学习。然而，大多数现有方法都是在模拟数据集或自我收集的真实世界数据集上进行训练的，机器人社区仍然缺乏统一的大规模数据集。

机器人学习数据集。与现实环境中的空间配置交互对机器人至关重要。然而，用真正的机械臂收集数据往往会产生大量成本 [42, 64]。通用模拟器 [63, 55, 15, 44] 复制了物理世界并为训练策略模型提供了虚拟环境，大大降低了数据收集相关的成本和时间。为了满足复杂和长期任务的训练需求，人们开发了基于真实世界环境的模拟器 [45, 10, 89, 72]，其中包含使用游戏引擎构建的逼真 3D 资源和场景。然而，模拟与真实的差距，严重影响了模仿学习策略的操纵准确性。因此，一些研究转向直接收集真实世界数据，包括通过自动脚本或专家智体收集的数据集 [8, 18, 32, 39, 46, 67]，以及通过人类遥操作获得的数据集 [6, 7, 22, 25, 37, 58, 75, 81]。RoboSet [6] 和 BridgeData V2 [81] 包含超过 50,000 条轨迹，但分别仅限于 6 种和 13 种技能类型。相比之下，RH20T [25] 涵盖 33 个任务，涵盖一般的桌面操作和接触丰富的操作，但其数据规模与其他数据集相比相对较小。最近，Open X-Embodiment 数据集 (OXE) [64] 做出了巨大努力，将现有的机器人数据集统一为标准格式，整合了 21 个机构合作收集的各种机器人数据。随后，ARIO [83] 进一步将真实世界和模拟数据集成为标准格式，旨在弥补现有数据资源的空白。DROID [42] 通过人类遥操作收集了 76,000 条演示轨迹，涵盖了 564 个不同的操作场景。尽管之前的大规模数据集提供了多样化的场景，但大多数数据集都集中在单一的实现类型——两指夹持器——并且缺乏灵巧的手，限制了任务的多样性。

大规模策略学习。从大型和多样化的数据集中学习机器人策略，已成为机器人领域的主要研究重点。一系列研究利用以自我为中心的人类视频 [17、16、31、30] 来协助机器人动作学习，因为这些视频捕捉了人与目标交互的时间背景和运动信息。利用大规模人类视频，先前的工作研究学习机器人表征 [62, 5]、操作先验 [40, 57] 和灵巧手控制 [56, 88]。另一种突出的方法，VLA 模型，利用多模态指令数据集 [52, 59, 35] 和机器人数据 [73, 7, 60, 84] 进行联合训练或预训练，增强模型的推理和泛化能力。具体来说，RT-2 [95] 创新地结合大规模互联网数据和低级动作数据进行联合微调，RoboFlamingo [50] 直接从 OpenFlamingo [4] 加载预训练参数进行视觉指令调整，RoboMamba [53] 利用高级常识和机器人相关推理数据进行联合训练。最后，一系列研究 [54, 43, 48] 利用大型汇编数据集（例如 OXE 和 ARIO）进行预训练，然后使用从实验场景中自行收集的模仿学习数据进行微调。大规模预训练显著提高策略模型的微调效率和泛化能力。

RoboMIND，目前的数据收集过程涉及三个核心组件：1）遥操作系统，使操作员能够实时控制机械臂。2）内部开发的智能数据平台，用于高效的数据收集、管理、处理和分析。3）质量保证流程，用于筛选高质量数据以供下游应用。

遥操作系统。数据是通过遥操作收集的。与通常通过脚本收集收集的机械运动数据不同，数据更自然、连贯、流畅，与人类的行为和认知非常相似。对于 Franka、UR-5e 和 Simulation 机器人，遵循 Gello [87] 中描述的设置，创建相应的同源遥操作设备和控制系统。对于 AgeliX 机器人，用内置的双臂遥操作系统。对于 Tien Kung 人形机器人，用 Xsens 动作捕捉服和 Gello 式遥操作设备收集数据。所有数据收集都在指定的内部区域进行，人员轮换最少。这种一致性有助于保持和谐的收集节奏并遵守内部标准，从而提高数据集的质量。

智能数据平台。随着收集的数据量不断增长，高效的记录、传输、管理和分析成为重大挑战。开发一个智能数据平台来支持具身智能系统的设计和开发。该平台使用云原生架构和分布式计算来处理大规模数据，提供四个主要功能及其相应的模块：1）数据收集（实时数据传输、收集设备管理）。2）数据存储（PB 级存储、结构化和非结构化支持）。3）数据管理（清理、质量评估、版本控制）。4）数据处理和分析。
数据质量保证。由于所有数据都来自操作员对系统的实时控制系统，因此可能由于物理限制（例如疲劳、习惯、分心或外部干扰）而出现错误。为了缓解这种情况，为操作员采用轮换制度，并努力提供舒适的环境，使他们集中注意力。此外，对所有收集的数据进行质量检查，以确保其可靠性。定义质量保证标准，例如不必要的接触和重复抓取。质量保证流程包括三个步骤：1）初步检查：快速查看视频以确保没有明显的技术问题，例如丢帧和不动。2）详细检查：逐帧或慢动作分析以验证是否符合标准。3）数据过滤和问题记录：记录不合规数据的特定时间戳和描述，并将其分类以便进一步处理或改进。

采用以任务为中心的数据收集协议，其中每个任务都是数据集的基本单位。在 RoboMIND 中，任务由四个关键部分全面定义：（1）所使用的特定机器人具身，（2）正在执行的操作技能，（3）任务中涉及的目标，以及（4）详细的场景描述，包括目标位置、空间关系和环境约束或干扰元素。这种基于任务的结构化框架可确保系统地收集数据，并能够对不同场景和任务中的机器人操作能力进行细粒度分析。

RoboMIND 具有标准化设置，可形成大规模真实世界操作数据集。如图所示，将其数据集与另一个大型机器人学习数据集 Open X-Embodiments (OXE) 进行比较。尽管 OXE 包含大量数据，但设置差异很大，很难在整个数据集中学习有效的操作策略。相比之下，RoboMIND 是通过精心设计的标准化程序收集的，可供其他机器人专家随时使用。同时，它的异构实现、多样化的任务和各种技能适合训练可推广的策略，无论是针对原始技能还是长期操作。

请添加图片描述

在 RoboMIND 中，为 10,000 个成功的机器人运动轨迹提供精细的语言注释。注释过程涉及两个主要步骤。首先，用 Gemini [78] 根据操作顺序对每个视频进行分段，并为每个片段生成详细的文本描述。这些描述准确地捕捉了操作步骤和相关上下文。其次，手动细化 Gemini 的注释，涉及以下关键方面：
• 识别关键操作目标。
• 检测并描述视频中的所有关键操作。
• 确保准确描述操作细节。
• 在时间分段中应用合理的粒度。
• 保持一致的时间逻辑。

这个彻底的过程提高了收集轨迹的语言注释精度和可靠性。用上述标准程序注释 Franka Emika Panda 手臂摘苹果并将其放入抽屉的视频，如图所示。结果表明，注释方案可以准确地分割视频中的关键动作，并提供这些关键动作的精确语言描述。

请添加图片描述

还发布一些机器人运动故障案例的 5k 条轨迹。记录的故障案例包括不同类型的人性化操作员未能完成分配的任务的情况，以及机器人在执行操作任务时遇到故障的情况。如图展示这些故障案例的可视化示例。具体来说，展示了 Franka 和 AgileX 机器人的两个故障案例。对于 Franka 执行的 FR-PlacePlateInPlateRack 任务，成功执行显示机械臂准确地将盘子放入盘子架中。

请添加图片描述

实验设置

机器人真实世界设置。现实世界机器人设置如图所示。本研究中使用的机器人平台配备如下：（1）Franka Emika Panda [28] 配备三个 Intel RealSense D435i 摄像头（左、上、右），分辨率分别为 480 × 640、720 × 1280 和 480 × 640 像素，以及一个 Robotiq 夹持器。（2）Tien Kung [9] 机器人在头部和胸部使用两个 Inspire-Robots RH56BFX 灵巧手和 Orbbec Gemini 335 摄像头，分辨率均为 480 × 640。（3）AgileX Cobot Magic V2.0 [69] 配备两个手眼 Orbbec Astra 摄像头和一个前置摄像头，分辨率均为 480 × 640。 (4) UR-5e [70] 搭配顶部安装的 Intel RealSense D435i 摄像头（分辨率为 480 × 640），还采用 Robotiq 夹持器。

请添加图片描述

训练设置。用模型的成功率来评估其在每个任务上的表现。每个模型评估 10 次试验，测试人员记录每次试验的成功或失败以及失败的原因。对于 ACT [94]、BAKU [33] 和 RDT-1B [54]，模型的输入包括 RGB 图像和机器人的本体感受状态，而输出是 N 个未来时刻的相应本体感受状态，利用动作分块技术。对于 OpenVLA [43]，它将任务 RGB 图像和任务语言指令作为输入，并输出一系列 7 维向量，表示闭环机器人控制策略，包括 x、y、z 坐标的变化和方向的变化，以及夹持器控制信号。

任务选择。 RoboMIND 涵盖从四个不同的机器人具身中收集的 279 个不同操作任务的多样化集合。这些任务的代表性示例如图所示。对于单任务模仿学习方法，评估各种任务：
• FR-SlideCloseDrawer。
• TK-UprightCup。
• AX-TakeCorn。
• UR-CloseTopWhiteDrawer。

请添加图片描述

对于 VLA 大参数模型，选择最近收集的任务来训练模型，确保实验环境（例如光照条件）与数据收集时的条件一致。与单任务模仿方法中选择的拾取和放置任务不同，还选择一些长期和复杂的任务，例如打开锅盖，从锅中取出土豆并将其放在盘子上，以测试 VLA 大模型，因为 VLA 大模型表现出良好的鲁棒性和泛化能力。

对于 RDT-1B [54]（用于 AgileX 机器人上机器人操作的 1.2B 参数 VLA 模型），在 AgileX 上测试四个真实场景任务以证明模型的性能，这些任务是：将苹果放在蓝色盘子上（AX-AppleBluePlate）、从锅里拿起土豆并放置（AX-TakePotato）、装不同的碗（AX-PackBowl）和清洗盘子（AX-CleanPlate）。

对于 OpenVLA [43]，它涉及使用大型机器人数据集对 Llama 2 模型 [80] 进行微调，使其适用于 7 自由度 (7- DoF) VLA 模型，在 Franka 机器人上选择五个真实任务来评估 OpenVLA 的性能。 Franka机器人执行的这六项任务包括：将面包放在盘子上（FR-PlaceBreadPlate1）、从碗里拿起草莓（FR-PickStrawberryBowl）、打开盖子（FR-OpenCapLid）、拉动抽屉打开抽屉（FR-SlideOpenDrawer）、推动抽屉关闭抽屉（FR-SlideCloseDrawer）。

对于单任务模仿学习模型，例如专为单任务学习而设计的 ACT，用 RobotMind 数据集从头开始训练它，并将其直接部署到相应的真实世界任务上。具体来说，采用 ACT [94] 和 BAKU [33] 算法，遵循其原始论文推荐的默认模型设置。这些实验针对 45 个任务进行，分布如下：15 个任务使用 Franka 机器人，15 个任务使用 AgileX，10 个任务使用 Tien Kung，5 个任务使用 UR-5e。

注：扩散模型及其变型，没有被实验和提供结果。