一体式机器人：多功能通用具身智体的新标准和统一数据集_all robots in one: a new standard and unified data-CSDN博客

本文链接：https://blog.csdn.net/yorkhunter/article/details/141420136

24年8月来自鹏城实验室、南方科技大学和中山大学的论文“All Robots in One: A New Standard and Unified Dataset for Versatile, General-Purpose Embodied Agents”。

具身人工智能正在改变人工智能系统与物理世界的交互方式，但现有的数据集不足以开发多功能、通用的智体。这些限制包括缺乏标准化格式、数据多样性不足以及数据量不足。为了解决这些问题，引入一个ARIO（All Robots In One）数据标准，它通过提供统一的数据格式、全面的传感模态以及现实世界和模拟数据的结合来增强现有数据集。ARIO 旨在改进具身AI智体的训练，提高它们在各种任务和环境中的稳健性和适应性。基于提出的新标准，提出一个大规模统一的 ARIO 数据集，包括从 258 个系列和 321,064 个任务中收集的大约 300 万个情节。

项目网页：https: //imaei.github.io/project_pages/ario/.

请添加图片描述

具身人工智能现在通过整合感知、认知和行动，显著影响着人工智能系统与物理世界的交互方式。这一发展推动了从机器人技术到人机交互等各个领域的进步，凸显了对全面而多功能数据集的需求。此前的几项研究已经引入了为抓取、路由和拾取放置等特定任务设计的开源数据集，旨在训练针对特定场景的智体。Open X-embodiment [24] 进一步汇总了来自各种数据集的数据，涵盖多个机器人平台、任务和环境，促进大规模机器人预训练。

然而，数据层面的巨大限制，继续阻碍着稳健、通用的具身智体开发，特别是在标准化格式、多样性和数据量方面。特定于任务的数据集不足以训练这些多功能智体，尽管像 Open X-embodiment 这样的预训练数据集看似结构统一，但仍然存在重大问题。这些问题包括缺乏全面的感官模态，没有同时包含图像、3D视觉、文本、触觉和听觉输入的数据集；多机器人数据集缺乏统一的格式，使数据处理和加载复杂化；在不同的机器人平台上表示不同的控制目标不兼容；数据量不足，阻碍了大规模预训练；缺乏结合模拟和真实数据的数据集，这对于研究模拟与现实的差距至关重要。

相关工作

为了满足机器人社区对大规模、多样化数据集日益增长的需求，人们开发了大量数据集，主要关注机器人操作任务，如抓取、推动和目标交互 [1, 5, 7, 13, 14, 21, 29]。值得注意的是，RoboNet [5]、RT- 1 [1] 和 BC-Z [13] 等数据集通过汇总不同机器人设置和环境中的操作数据做出了重大贡献。然而，这些数据集通常受限于任务多样性和感官数据的丰富性，主要侧重于视觉数据，而很大程度上忽略了触觉、听觉或本体感受反馈等模态。ARIO 数据集通过整合五种感官模态（图像、3D 视觉、音频、文本和触觉）解决了这些限制，从而丰富了用于训练稳健的多模态感知模型的数据集。

ARIO 标准是一个框架，它标准化了各种环境和任务中具身 AI 数据的收集、存储和分析。其模块化设计支持可扩展的机器人基础模型设计和有效的算法测试。

分层数据结构：ARIO 将数据组织成四个主要层：收集（collection）、系列（series）、任务（task）和情节（episode）。一个收集包含多个系列，每个系列都与特定的场景和机器人类型相对应，而一个系列则由自然语言指令（如“摘苹果”）描述的多个任务组成。任务细分为情节，每个情节从一次执行中捕获一整套数据，包括由统一时间戳同步的所有观察和控制数据。

数据收集协议：为了捕获广泛的操作范围，ARIO 要求收集各种环境和操作。每个数据捕获会话都会记录基本模态（如文本指令和图像）以及特定于任务的模态（如末端执行器状态或导航数据）。

元数据和文档：通过每个系列中的 information.yaml 文件，提供全面的元数据，详细说明所涉及的场景、机器人和传感器，确保与各个情节中的数据保持一致。特定于任务的元数据，包含在 description.yaml 文件中，概述了每个任务的详细说明和所需技能。

标准化和完整性：ARIO 强调跨各种传感器和交互的标准化数据格式和细致的收集协议，以确保数据完整性和可用性。这种标准化支持直接的数据集成和分析，这对于开发适应性强且可扩展的机器人智体至关重要。

通过提供结构化的数据处理方法，ARIO 标准显著增强了机器人在不同场景和任务中的学习和泛化能力。

具身智能带来了独特的数据挑战，这对于开发大型模型至关重要。文本和图像等传统数据类型可以轻松从互联网上获取；然而，具身智能数据需要真正的机器人在专门设计的环境中或通过复杂的模拟（例如由 MuJoCo 或 Isaac Sim 启用的模拟）执行任务。这种方法需要大量的时间、成本和计算需求，而数百万个数据点的聚合则代表着巨大的挑战。像 Open X Implementation [24] 这样的协作计划，旨在将来自各种来源的数据集整合到一个平台中，以促进大量和多样化的数据收集。

具身智能数据有两个主要特点：
• 机器人形态多样：机器人具有多种配置，包括单臂、双臂、人形和轮式。每种形式都需要独特的控制和运动数据格式——从关节角度到绝对位置。与更简单的数据类型不同，没有适合所有这些不同形式的通用数据格式。
• 时间数据要求：理想情况下，数据帧必须带有时间戳，以正确对传感输入和控制输出进行排序。传感器帧率和机器人动作频率的变化增加了另一层复杂性。当来自不同来源的数据集合并时，每个数据集都有其独特的数据存储约定，这大大增加了此类数据的处理和利用的复杂性。

然而，现有数据集中的几个关键缺陷阻碍了具身智能的进步，如图所示：

请添加图片描述

传感模态不足：当前数据集缺乏丰富的传感模态。目前没有一个数据集同时包含包括图像、3D 结构、文本、触觉和听觉输入在内的全系列数据类型，如图 (a) 所示。
缺乏标准化：虽然 OpenX Implementation 等数据集包括多种机器人形式，但它们缺乏统一的格式，使得处理和利用变得繁琐，如图 (b) 所示。
跨平台——从移动机器人的导航到机械臂的位置姿态和关节角度，如图 © 所示。
模拟与现实之间的差距：目前缺乏同时提供同一机器人的模拟数据和真实数据的数据集，以及基于真实世界扫描的模拟数据，这对于研究模拟与现实之间的差距至关重要。这一差距在图 (d) 中突出显示，也是 ARIO 关注的重点，尽管目前可用的数据集尚未解决这一问题。
由于这些原因，具身智能的数据集不仅需要庞大而多样，还需要标准化为能够适应不同机器人形态的不同数据变量的格式，并带有精确的时间戳。这种标准化有助于高效训练高性能、可推广的具身应用模型。

ARIO 旨在通过为具身智能提供最佳数据格式标准来满足这些需求。设计 ARIO 数据结构以满足这些标准，结合真实数据和模拟数据，并努力将现有的开源数据集转换为 ARIO 格式，有效解决具身智能领域当前的瓶颈问题。

ARIO 数据收集流水线由 3 个并行组件组成：从真实场景收集、从模拟平台生成和从开源数据集转换，如图所示：

请添加图片描述

这样对ARIO的要求包括：

多种感官模态。ARIO 支持 5 种：2D 图像、3D 视觉、声音、文本和触觉
多模态数据的时间对齐。ARIO 支持基于时间戳的相机 (30Hz)、激光雷达 (10Hz)、本体感受 (200Hz) 和触觉 (100Hz) 对齐的记录和命名。
统一的数据架构。ARIO 建立在场景-任务-情节结构上，每个场景和任务都有文本描述，以有组织且合乎逻辑的方式记录丰富的信息。
统一配置。 ARIO 以统一格式的配置文件形式指定数据内容，从而能够灵活地记录多种类型的机器人实施例（单臂、双臂、人形、四足、移动）和不同的控制动作（位置、方向、 3 个 RGB-D 摄像机（Orbbec DaBai）来提供任务的“观察”，其中两个安装在从属臂的手腕上，第三个安装在支架的前面，面朝前方。

ARIO和其他具身数据集的比较如下表：

请添加图片描述

数据采集采用 Cobot Magic（AgileX Robotics），这是一个双手移动操作平台，如图所示，用于真实世界数据收集。它具有一个移动基座（AgileX Tracer AGV），可在环境中导航，速度高达 1.6 m/s。它还包含 4 个轻型 6-自由度的手臂（ARX ROBOTICS），尖端有效载荷（payload）为 3Kg，其中 2 个是主臂，可以通过重力补偿由人类演示者直观地控制，另外两个是从臂，忠实地跟随主臂的运动。手臂可以通过动力控制，并通过估算关节电流的尖端力量来提供粗略的触觉反馈。每个手臂的尖端都放置了一个由线性电机控制的定制夹持器，两个主臂夹持器包含额外的“手柄”机构，以便操作员去连续控制夹持器。总共采用 3 个 RGB-D 摄像机（Orbbec DaBai）来“观察”任务，其中两个安装在从臂的手腕上，第三个朝前，安装在支架的前面。

请添加图片描述

平台的其余部分包括一个电池组和一台用于计算的板载笔记本电脑。笔记本电脑以 640×480 的分辨率和 30Hz 的频率接受来自 3 个 RGB-D 摄像机的数据流。它还通过 USB 串行端口和CAN 总线分别接受来自 4 个臂和Tracer 移动基座的本体感受流。以 200Hz 的频率记录所有 4 个机器人手臂的关节位置、速度和扭矩。此外，以 200Hz 的频率记录末端执行器的 6D 姿势和夹持器的状态。数据收集代码来自 https://github.com/agilexrobotics/ario-tools，如果需要，它还支持记录点云和基座移动速度。

招募了 30 多名志愿者来远程操作设计的任务。志愿者会收到即将收集的任务说明和详细描述，其中还包括机器人和环境的初始和最终条件。他们在收集数据之前熟悉任务的操作。对于每个任务，收集 50 个情节，其中机器人/环境的初始和最终条件可能因不同情节而异。志愿者还需要在完成每次操作后将任务的难度级别分类为容易、中等或困难。

使用收集软件收集的数据并不严格遵循 ARIOS 的格式，因此需要进行额外的后处理。此外，还要进行手动验证以过滤掉那些缺少信息和摄像机频率降低（丢帧）的情节。

设计了 60 多项任务，以家庭环境中的桌面操作为特色。这些任务不仅涵盖一般的拾取和放置技能，还涵盖更复杂的技能，如扭转、插入、按压、切割等。相对于抓取，本文关心的任务如下（其中的例子如图所示）：

长-视野任务
双手精细操作任务
接触-密集型任务
人-机协作任务
可变形目标操作任务

请添加图片描述

采用Cloud Ginger XR-1进行真实世界数据采集。Cloud Ginger XR-1是 XR 系列下一款支持5G的轮式人形云机器人。Cloud Ginger拥有40多个智能关节，定位精准，采用非晶电机(amorphous motor)，中空对齐设计，集成度高，扭矩大，因此具有较高的灵活性，动作更可靠，负载能力更强。Cloud Ginger机身拥有多个硬件扩展接口，可以接入多种外设工具，实现更广泛的操控场景。尤其是Cloud Ginger拥有 7-自由度的灵巧手，负载可达5公斤，与手臂配合时可以实现高精度的灵巧抓取，使抓取、操控工具等精细动作更加轻松。此外，Cloud Ginger机身拥有9个可扩展接口，可以轻松扩展以配备各种外设工具。

采用人工演示数据收集方法，即操作员直接控制机器人完成任务。这种方法能够捕捉专家级演示，并确保收集的数据与预期的任务目标一致。在正式收集数据之前，进行初始阶段以熟悉操作。在此阶段收集的初步数据用于训练目的，识别任何潜在问题并评估数据的实用性。随后，对收集的数据进行后处理，将其转换为 ARIO 格式。

ARIO 中的模拟数据来自三个模拟平台：来自 Habitat 的目标导航任务、来自 MuJoCo 和 SeaWave 的操纵任务。

用 Habitat-Matterport 3D (HM3D) 场景数据集 [25] 和 Habitat Challenge 2022 目标导航 (ObjectNav) 任务数据集作为 HM3D [35]。Habitat [27] 是一个具身人工智能研究平台，它能够在高效的真实感 3D 模拟中训练具身智体（虚拟机器人）。Habitat-Matterport 3D 研究数据集 (HM3D) [25] 是最大的 3D 室内场景数据集。目标导航是一项具有代表性和挑战性的导航任务，侧重于以自我为中心的目标/场景识别和对目标语义的常识理解。按照 [35] 中的设置收集 6 个目标类别的导航任务，每个任务都与一个目标类别相关联。用来自训练分组和相应情节的 80 个场景来收集轨迹以查找给定的目标实例。用官方的 Habitat API 实例化一个最短路径贪婪跟随者智体，它接收给定的位置并通过最短的可导航路径导引到该位置。对于输入目标位置，对大多数数据使用场景目标物体列表中第一个目标实例的位置，对其余数据使用从同一列表中随机选择的实例。在每个情节中，智体会记录每个时间步的 RGB-D 观察和智体状态。在模拟器查询情节成功状态并删除失败的轨迹。

采用 Scaling Up and Distilling Down [10]，它基于 MuJoCo 物理模拟器开发了一个大语言模型 (LLM) 引导的任务生成和策略学习框架。其框架利用 UR5（一个 6-自由度机械臂）为分层控制系统创建实现 API。该系统集成了高级任务策略、中级运动规划和低级关节控制。基于此框架，设计了三个任务：拾起目标、将目标放入篮子和打开抽屉。每个任务都使用 3D 目标模型构建了相应的场景。在采样器的初始化阶段，随机定位目标物体并将其方向设置在预定义范围内。此外，在目标周围放置了几个干扰目标以增强任务复杂性。对于打开抽屉的任务，还通过改变背景桌面颜色和不相关抽屉的打开/关闭状态来引入变化。这些修改增加了场景的多样性。进一步以 ARIO 格式记录了中间状态数据。总共生成了 1,700 个涉及 21 个交互目标的轨迹事件。

将原始 SeaWave [26] 数据转换为 ARIO 格式。Sea-Wave 基准包括一个基于 UE5 的模拟器，旨在评估机器人理解和执行人类自然语言指令的能力。模拟器在不同的任务场景中测试各种机器人操作技能，例如拾取、放置和移近。SeaWave 任务根据指令的性质和所需的操作分为四个复杂程度。这些任务包括使用简单命令的基本操作任务，以及需要基于抽象自然语言指令进行视觉感知和决策的复杂场景。

ARIO 中的转换数据来自三个开源数据集：Open X-Embodiment、RH20T 和 Maniwav Datasets。

Open X-Embodiment 数据集 [24] 是一个大型开源资源，汇集了来自各个机构的数据。它包含 72 个数据集，总计超过 240 万情节，展示了各种各样的机器人、控制方法和数据收集策略。该数据集包括各种各样的任务，例如抓取、收集、分类和导航，结合了现实世界和模拟数据。

然而，该数据集有一些明显的缺点。它缺乏统一和清晰的格式，使得高效处理和加载数据具有挑战性。为了解决这个问题，开发一个转换工具，将 Open X-Embodiment 中复杂多样的数据转换为 ARIO 格式。在转换过程中，遇到了数据缺失和文档不清晰的问题，这使得很难确定某些数据的正确解释。因此，目标是尽可能多地保留原始数据，同时删除不相关或不可用的数据。过滤掉没有夹持器和关节信息或文档不清楚的数据集，最终转换 62 个数据集。

RH20T [6] 数据集是根据各种环境下的真实遥控任务汇编而成的。采集环境配备了一组全局 RGBD 摄像机，数量从 8 到 10 个不等，可提供不同的视点，以及一到两个手持摄像机。记录了全面的运动数据，包括关节角度和扭矩，以及夹持器的位置、方向和打开/关闭状态。某些机器人夹持器配备了指尖触觉传感器，增强了接触丰富任务中的模态丰富性。

RH20T 数据集包含 140 多项任务，包括日常生活中常见的活动。每个任务都由多名操作员使用七种不同的机械臂在各种条件下执行，确保了高度的多样性。标定所有传感器，以确保数据的一致性和可靠性。

为了有效利用这个数据集，开发了一个转换程序，将 RH20T 数据集转换为 ARIO 格式。然而，该数据集存在局限性，主要是因为某些情节缺少数据，包括缺少摄像机馈送或联合数据。此外，提供的文档不够详细，对全面解释数据集的含义构成挑战。

在转换过程中，努力保持原始数据的完整性，仅排除那些完全没有任务描述的情节。通过这种方法，成功转换了总共 12,719 条情节轨迹。
目前，大多数开源具身智能数据集主要包含视觉感知数据，少数数据集包含触觉信息，几乎没有记录智体与环境交互过程中的听觉数据。ManiWAV [18] 团队在研究声音对机器人任务成功率的影响方面独树一帜，他们发布了一个捕获这一关键组件的数据集。

ManiWAV 数据集包含四个任务：擦拭白板、翻转百吉饼（Bagel）、掷骰子、和用尼龙搭扣胶带绑电线。数据收集是使用人-操作的通用操作界面 (UMI) [4] 设备进行的，该设备配备了一个共动摄像头和双麦克风 - 一个用于捕捉接触音频，另一个用于捕捉环境声音。除了这些听觉记录外，该数据集还包括 UMI 夹持器的位置和方向欧拉角数据，以及其打开和关闭状态。

开发一个转换脚本，将所有公开的 ManiWAV 数据转换为 ARIO 格式，并为每个任务添加文本描述，以提高清晰度和实用性。ManiWAV 共包含 1,297 个情节轨迹，是 ARIO 中唯一包含听觉数据的数据集，为多模态机器人感知和动作的研究提供了独特的资源。