RoboCAS:复杂物体排列场景中机器人操作的基准

24年7月来自美团的论文“RoboCAS: A Benchmark for Robotic Manipulation in Complex Object Arrangement Scenarios”。

基础模型具有巨大的潜力,可使机器人执行长远的一般操作任务。然而,现有基准测试中任务的简单性和环境的统一性限制了它们在复杂场景中的有效部署。为了解决这一限制,本文介绍 RoboCAS 基准测试,这是一个专门为机器人操作中复杂的物体排列场景设计的基准测试。该基准测试采用灵活而简洁的脚本策略来有效地收集各种各样的演示,在高度逼真的物理模拟环境中,展示分散、有序和堆叠的物体排列。它包括目标检索、障碍物清除和机器人操作等复杂过程,测试智体执行空间推理的长远规划和预测模糊指令下连锁反应的能力。对多个基线模型的大量实验揭示它们在管理复杂物体排列场景方面的局限性,强调在实际部署中迫切需要能够执行长远操作的智能智体。

在人工智能领域,具身人工智能[1, 2, 3]正日益成为研究的焦点。其核心目标是开发能够深入理解环境、做出精确决策并执行复杂物理操作的智能系统。为了实现这种高水平的智能,研究人员采用了模仿学习[4, 5, 6]和强化学习[1, 7, 8, 9]等先进方法,这些方法已在多个实验和应用中被证明是有效的。然而,这些技术的成功实施在很大程度上依赖于大量高质量的训练数据,而这些数据通常很难获得。

近期具身人工智能的研究兴趣集中在人类语言条件下完成长期任务 [17, 14, 18, 19, 20, 21, 12, 22, 23],通常通过行为克隆或强化学习的方法,在当前环境观察和语言指令的条件下生成机器人动作策略。然而,大多数模型都是在比现实世界中容易得多的任务上训练的,很难应用于现实生活或商业场景,因为这些场景在环境变化和物体关系方面都比训练数据集复杂得多。一类方法 [24, 25, 26] 尝试利用更容易获得的视频或语言数据对状态token化器进行预训练,然后用少量机器人数据对整个模型进行微调,以降低学习机器人任务的难度,但由于缺乏机器人动作和物体反应之间的关系,在遮挡目标物体的情况下仍然表现不佳。另一组方法 [27, 2, 28, 29] 涉及使用大语言模型 (LLM) 将长范围任务分解为更简单的基本任务。然而,这些方法仍然难以处理密集杂乱的场景,因为 LLM 无法通过文本描述全面理解场景中物体之间的关系。为此,需要一个在杂乱场景中密集排列物体的操作任务数据集来训练可部署的行为克隆(BC)模型,这是 RoboCAS 的起点。

目前,研究人员主要依靠两种类型的数据集来训练和测试这些智能系统:真实世界机器人数据集和模拟数据集。真实世界机器人数据集[3, 10, 11, 12, 13]提供了真实世界场景和物理交互数据,这对模型训练极为有益。然而,这些数据集的制作成本很高,包括采购昂贵的机器人硬件、设置复杂的环境以及大量的数据收集和注释工作。此外,这些数据集的生产周期较长,例如 RT-1 数据集 [14] 在 17 个月内仅收集了 13 万次专家演示。由于这些原因,现有基准的数据量有限,任务相对简单,如图 (a) 所示。

请添加图片描述

与此同时,模拟数据集提供一种经济高效的替代方案。研究人员使用 Gazebo [15] 和 Isaac Gym [16] 等平台通过计算机仿真来模拟各种场景和任务,快速生成大量数据。然而,目前的模拟数据往往缺乏现实世界的复杂性和多样性,这往往成为从模拟-到-现实 (Sim-2-Real) 过渡的主要障碍。如图 (b) 所示,现有数据集主要关注干净整洁的场景,例如单调的桌面和背景,并涉及抓取非现实物体(例如拾起积木)等任务。

如图 © 所示,日常生活中常见的物品都是有序排列和堆叠的,例如成堆的蔬菜或货架上整齐摆放的商品。这些场景需要智体处理模糊的语言指令、执行高级空间推理并预测连锁反应。基于此,提出一个名为“复杂物体排列场景中的机器人操作”(RoboCAS)的新基准。该基准利用灵活而简洁的脚本策略,在高度逼真的物理模拟环境中,高效地收集各种展示分散、有序和堆叠的物体位置演示。这些演示涵盖目标检索、障碍物清除和机器人操作等复杂过程。值得注意的是,环境中的物体(例如桌子和衣柜)以及可操作的物体(例如杯子和洗面奶)都来自对真实物体的扫描。此外,开发的脚本策略可以自动生成场景和演示轨迹,从而能够以经济高效的方式收集用于模仿学习的训练和验证数据。

为了自动生成演示,在模拟环境中开发基准,如图所示。模拟器:用 SAPIEN [41] 模拟器构建任务环境,该模拟器无缝集成 PhysX 物理引擎和 Vulkan 渲染引擎。这种组合提供高度逼真的物理模拟和卓越的渲染质量,使机器人能够准确地学习和执行与真实场景非常相似的任务。智体:任务环境中使用的智体是 7 自由度 Franka Emika Panda 机械臂,安装在移动基座上以增强灵活性。为了进行全面观察,三个 RGB-D 摄像头被有策略地放置:一个在机器人的头部,一个在夹持器上,一个在地面上。这种设置确保强大的观察能力,类似于实际机器人平台上的观察能力。环境目标:环境目标(例如桌子、抽屉和背景)主要来自 PartNet [51] 数据集。通过在配置文件中指定环境目标及其姿势来参数化此设置。该方法不仅有助于创建和修改环境,还可以自动生成各种场景。可操作目标:在模拟环境中,精心选择了 46 个日常物品,例如牙膏和饼干盒,这些物品由 Fangetal 从真实商品中扫描而来。[30]。这些物品作为任务的可操作目标,大大增强了环境的真实性。

请添加图片描述

第一个问题是如何有效地生成各种场景,以实现逼真合理的布局。手动设计了大量的场景模板,其中包含环境目标(例如橱柜和架子)和可操作目标,如图(a)所示。虽然这些模板是手动设计的,但操作过程并不复杂,通常只需要对配置列表进行简单的编辑。为了进一步简化场景配置,首先注释环境目标的可操作部分,例如可以放置目标的区域和抽屉把手的位置,并使用力闭合度量(参考 [30])来确定可操作目标的可行操作姿势。这些一次性注释的信息稍后可以在场景模板中自动检索和重用,从而无需手动重复编码。

此外,场景模板分为三种类型的场景布局,用于排列不同复杂程度的模型目标。如图(b)所示:a)散乱场景:物体随机放置在操作平台表面的单层上(例如桌面、柜子内),允许物体采取各种姿势以增加与现实的一致性;b)有序场景:物体沿表面边缘对齐,按列排列,模拟商品的展示方式,其中遮挡和重复物体的选择成为智体的问题;c)堆叠场景:大量不相关的物体堆叠在目标物体上方,对观察造成严重遮挡。通过整合这些不同的场景布局,环境不仅增加了多样性和复杂性,而且更好地模拟了现实世界的场景,为有效的操作提供了挑战。

如图所示:RoboCAS 基准测试中支持三种类型的任务。拾取:拾取指定目标并将其移动到指定位置。选择:从多个相同排列的目标中选择并抓取特定目标。搜索:在堆叠的场景中找到部分被遮挡的特定目标,清除任何障碍物,然后抓住它。

请添加图片描述

通过修改场景配置生成场景布局后,为每个任务设计脚本策略,以获得可以访问全局信息的演示轨迹,与手动收集相比,数据收集速度显著加快。为了简化规划过程,每种类型的任务分为几个子任务:目标选择、抓取姿势采样、障碍物移除和路径规划,如图所示。请注意,在目标选择阶段,可以使用其他选择标准,例如所有相似物体与智体的距离以及每个可操作物体的可见区域 pvis 百分比。

请添加图片描述

特别是在搜索任务中,仅当从工作空间上方的自上而下的摄像机 Csel 观察时,摄像头 C 下目标可见区域 Svis 小于阈值 pth 时,才选择一个物体作为目标,确保智体在抓取之前执行搜索动作。填充目标选择后预定义的模板生成语言指令。

在接下来的抓取采样阶段,从目标的注释标签中采样抓取姿势并投影到当前场景,之后在场景物体和放置在这些姿势的夹持器模型之间进行集合检测,筛选出可行的操作姿势。

在搜索任务的障碍物移除阶段,使用模型间最近距离和可见性得分检测目标周围的障碍物,之后生成移除规划。位于最高位置的障碍物 Oobt 被优先移除,通过在 Oobt 表面上的点 ppush 处,沿向量 vpush 的方向水平推动。

移除规划由路径规划阶段执行,首先用手指闭合将 EEF 移动到 ppush,然后沿 vpush 推动 Oobt 2 × dext 的距离。障碍物移除和路径规划阶段将重复,直到检测的障碍物数量少于 2。

在几次收集事件后,环境将被重置,以将场景保持在理想状态,规划器在收集数据时应考虑物体之间的相互作用,这是 RoboCAS 与现有基准的主要区别。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值