BiGym:基于演示的移动双手操作基准

256 篇文章 0 订阅
210 篇文章 0 订阅

24年7月来自伦敦帝国学院的 Dyson 机器人学习实验室论文“BiGym: A Demo-Driven Mobile Bi-Manual Manipulation Benchmark”。

BiGym,是一个用于移动双手演示-驱动机器人操作的新基准和学习环境。BiGym 具有 40 个不同的家庭环境任务,从简单的目标到达,到复杂的厨房清洁。为了准确捕捉现实世界的表现,为每个任务提供人工收集的演示,反映现实世界机器人轨迹中的各种模式。BiGym 支持各种观察,包括本体感受数据和视觉输入(例如 RGB)以及来自 3 个摄像头视图的深度。为了验证 BiGym 的可用性,在环境中对最先进的模仿学习算法和演示驱动的强化学习算法进行了彻底的基准测试,并讨论了未来的机会。

机器学习基准对于衡量和理解研究算法的进展具有重要意义。值得注意的基准包括用于图像理解的 ImageNet [1]、用于自动驾驶的 KITTI [2] 和用于基于语言的问答的 SQuAD [3]。在机器人技术领域,先前的基准大大降低了迭代和开发算法的成本。例子包括 OpenAI Gym [4]、DeepMind Control Suite [5] 和 MetaWorld [6]。然而,所有这些基准都专注于具有密集形状奖励的纯强化学习 (RL),限制了它们在长期操作任务中的应用,因为准确定义奖励函数具有挑战性。

虽然制作奖励很困难,但获得专家轨迹(例如来自人类演示的轨迹)相对简单。这一优势推动了演示驱动方法在机器人学习社区中的流行,具体表现为模仿学习 (IL) [7、8、9、10、11、12、13] 和演示驱动的强化学习 [14、15、16、17]。为了支持构建演示驱动智体的研究,RLBench [18] 的创建包含各种单臂固定操作任务,其中专家演示由运动规划器生成。使用运动规划器允许 RLBench 纯粹在模拟中生成大量演示数据,但是,输出轨迹通常要么由于基于采样的规划器固有的随机性而不自然,要么与嘈杂的真实世界人类演示相比具有不切实际的狭窄轨迹分布。此外,社区的进展在大量 RLBench 任务上开始停滞不前,尤其是最近的 3D 次优姿势智体 [10、11、16、17、19、20、21]。
这些限制凸显了对新基准的需求,该基准提供:(1) 更自然的演示,如现实世界机器人数据中看到的演示;(2) 一组新的具有挑战性的任务,其中最先进的算法可能表现不佳。

为此,提出 BiGym,这是一个人形具身的演示驱动移动双手操作基准。BiGym 涵盖 40 个视觉移动操作任务,从简单的任务(如在排水器之间移动盘子)到与洗碗机等铰接式物体交互,如图所示。

请添加图片描述

与之前的人形机器人基准测试 [22, 23] 不同,这些基准测试仅关注具有密集形状奖励函数的强化学习,这可能会导致不良行为 [24],为每个任务仅提供稀疏奖励,但有 50 个演示,可以评估 IL 和 RL 算法。此外,与之前依赖于规划器生成的专家演示基准测试 [18] 相比,BiGym 中人类收集的演示更加逼真和多模态, 如图所示,更好地反映了真实机器人运动的轨迹。图中显示 BiGym 和 RLBench 手臂手腕位置分布的可视化。将 BiGym 人类收集的轨迹的手腕位置可视化,包括多模态伸手目标和打开壁柜任务,以及 RLBench 伸手目标和将刀放在砧板上的任务。BiGym 的轨迹嘈杂、多模态,但总体上很平滑,而 RLBench 的运动规划器生成的轨迹要么是直线,要么不自然。

请添加图片描述

最后,BiGym 分别考虑运动和移动双手操作挑战;具体来说,BiGym 允许用户在全身模式(同时考虑运动和操作)和双手模式(专注于上半身移动操作,同时用固定控制器控制下半身)之间切换,如图所示。这种动作模式的分离使研究人员能够更好地研究和评估不同重点的各种算法的能力,即运动控制和移动双手操作。BiGym 的代码可在项目网站上找到。

请添加图片描述

与之前使用运动规划器生成专家演示的基准测试 [18, 31, 40] 不同,BiGym 提供的是人工收集的演示,这些演示噪声很大且是多模态的。具体来说,将 BiGym 任务设计为可以通过多种方式解决,以产生多模态演示分布。例如,在到达目标多模态任务中,可以用左手或右手到达目标,如上图 (b) 所示。这种设计能够使用更真实的演示来评估机器人学习算法的能力,而不是由非自然轨迹组成的合成演示。

基于 MuJoCo [42] 构建 BiGym 模拟环境。根据 Unitree H1 机器人的公开模型实施该平台。由于原始 H1 没有配备夹持器,在每个手臂上附加一个带有驱动腕关节的 Robotiq 2F-85 夹持器。平行夹持器很容易与其他灵巧的操纵器互换。

如上图 (a) 所示,在机器人上安装了三个摄像头:前额、左手腕和右手腕。每个摄像头都可以生成 RGB 和深度观测,这支持使用任一类型观测的多种类型算法。因此,观察空间定义为 O = {Ihead, Ileft, Iright, Dhead, Dleft, Dright, s/proprio},其中 I 是 RGB 图像,D 是深度图像,s/proprio 是机器人的本体感受状态。如果需要,还可以轻松获得其他观察结果,例如夹持器姿势和机器人姿势。

机器人社区仍不清楚哪种动作模式最适合移动双手操作任务中的复杂体现。因此,在 BiGym 中,为用户提供灵活的配置,自定义他们想要使用的动作模式,并将选择权留给用户。具体来说,提供了两种现成的动作模式:全身动作模式和双手动作模式,具有增量动作或绝对动作。对于全身动作模式,允许完全控制人形关节。这允许研究运动中的全身操纵。在双手动作模式下,将人形机器人的下半身视为由经典控制器管理的全向浮动底座,从而简化了控制。在这种情况下,可以专注于上半身的双手移动操控技能。

BiGym 中的场景,是基于 dm control 的自定义面向目标 API 从 MuJoCo MJCF 模型创建的 [5]。BiGym 中提供的所有 MJCF 模型都是从公开可用的 3D 模型创建的。许多其他 3D 模型都经过处理以用于 BiGym:减少网格以减少多边形总数,分离铰接物体的移动部件,添加所需的关节和执行器,并创建凸碰撞网格。目前,BiGym 提供 46 种高质量资产,可以重复使用以促进新环境的创建。除了刚体模型外,BiGym 还提供一组铰接模型,例如洗碗机和可定制的厨房模块。

基准测试的界面遵循用于训练 IL 和 RL 智体的标准 Gymnasium API [43]。如图展示了 RL 智体训练的典型工作流程。

请添加图片描述

BiGym 的一个关键设计选择,是为每个任务提供固定数量的人类收集演示。这使得 BiGym 基准测试能够更好地反映现实世界机器人学习的挑战,这涉及处理嘈杂的多模态演示,而不是运动规划器生成的合成演示 [18]。

实验中 IL 算法旨在研究不同的策略表示如何影响算法在 BiGym 上的最终性能,BiGym 提供了高度嘈杂和多模态的演示。为了实现这一目标,考虑了以下算法:标准行为克隆 (BC)、动作分块Transformer (ACT) [9](它训练Transformer模型 [45] 来预测一系列动作)和扩散策略 [8](它训练扩散模型来近似专家动作分布)。特别是,不会与流行的 3D 次优姿势智体 [10、11、16、17、19、20、21] 进行基准测试,因为它们依赖于基于启发式的关键帧提取方法,而这些方法仅适用于单个固定臂 [17];因此,它们目前不适用于移动双手操作形态。

实验中 RL 算法主要考虑支持使用专家演示进行训练的演示驱动 RL 算法。具体来说,专注于离线策略算法和离线强化学习算法,这些算法在在线设置中表现出了良好的能力。考虑以下算法:DrQV2 [46]、优势加权的演员-评论家 (AWAC) [47]、隐式 Q-学习 (IQL) [48] 和由粗到细的深度 Q-网络 (CQN) [49]。由于 BiGym 任务的奖励稀疏、观察不充分和动态复杂,因此对于强化学习算法来说,BiGym 任务可能极具挑战性。为了给未来的研究提供参考,按原样提供所有方法的结果,并使用通用的超参数集,而不是针对单个 BiGym 任务调整它们的性能。
最后,BiGym和其他基准的比较:

请添加图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值