Humanoidbench:用于全身运动和操控的模拟人形机器人基准

256 篇文章 0 订阅
210 篇文章 0 订阅

24年6月来自UCBerkeley和韩国延世大学的论文“Humanoidbench: Simu- lated humanoid benchmark for whole-body locomotion and manipulation”。

人形机器人具有灵活性和适应性,能够利用类似人类的形态,在各种环境和任务中为人类提供帮助,因此前景广阔。然而,人形机器人的研究往往受到昂贵且脆弱的硬件设置的阻碍。为了加速人形机器人的算法研究,本文提出一个高维模拟机器人学习基准 HumanoidBench,其特点是配备了灵巧双手的人形机器人能够执行各种具有挑战性的全身操控和运动任务。研究结果表明,最先进的强化学习算法在大多数任务上都举步维艰,而分层学习方法在强大的低级策略(如行走或伸手)支持下可实现卓越性能。

开源代码: https://humanoid-bench.github.io

人形机器人一直有望无缝部署到人类日常生活中。尽管人形机器人的硬件(例如 Boston Dynamics Atlas、Tesla Optimus、Unitree H1)取得了快速进步,但它们的控制器完全或部分是为特定任务手工设计的,这需要为每个新任务和环境进行大量的工程设计,并且通常仅展示有限的全身控制能力。

近年来,机器人学习在机器人操纵 [12, 69, 15] 和运动 [27, 71] 方面都取得了稳步进展。然而,将学习算法扩展到人形机器人仍然具有挑战性,并且主要由于此类机器人昂贵且不安全的真实世界实验设置而被推迟。

为了加速人形机器人研究的进展,本文提出人形机器人基准 HumanoidBench,它具有多种运动和操纵任务,为机器人学习研究人员提供了一个可访问、快速、安全且廉价的测试平台。模拟人形机器人基准测试,展示了自主人形机器人学习中的各种挑战,例如具有复杂动态的机器人的复杂控制、各个身体部位之间的复杂协调以及长期复杂任务。

HumanoidBench 提供 (1) 一个模拟环境,包括一个具有两只灵巧手的人形机器人,如图所示;(2) 各种任务,涵盖运动、操纵和全身控制,结合人类的日常任务;(3) 一个标准化基准,用于评估社区在高维人形机器人学习和控制方面的进展。事实上,HumanoidBench 支持通用控制器结构,包括学习和基于模型的方法 [14, 26]。本文展示了强化学习 (RL) 算法的广泛基准测试结果,这些算法不需要广泛的域知识和分层 RL 方法。

请添加图片描述

HumanoidBench 的模拟环境使用 MuJoCo [60] 物理引擎。对于模拟人形机器人,主要选择 Unitree H1 人形机器人,它价格相对实惠,并提供准确的模拟模型 [66],其手臂上附有两个灵巧的 Shadow Hands。环境可以轻松整合任何人形机器人和末端执行器;因此,提供其他模型,包括 Unitree G13、Agility Robotics Digit4、Robotiq 2F-85 夹持器和 Unitree H1 机器手。

HumanoidBench 任务套件包括 15 个不同的全身操作任务,涉及各种交互,例如从卡车上卸下包裹、使用工具擦拭窗户、接球和投篮。此外,提供 12 个运动任务(不需要手的灵活性),这些任务可以作为全身操作任务的基本技能,并提供一组更简单的任务来验证算法。该任务套件的基准测试结果显示 RL 算法如何难以控制复杂的人形机器人动态和解决最具挑战性的任务,这为未来的研究提供了充足的机会。
如图所示,用 Unitree H1 人形机器人 和两只灵巧的 Shadow Hands作为基准测试的主要机器人智体。用 MuJoCo [60] 模拟此人形机器人,该模型采用 Unitree 提供的 Unitree H1 模型和 MuJoCo Menagerie 提供的灵巧 Shadow Hand 模型。

请添加图片描述

如下表是模拟机器人基准的比较:

请添加图片描述

本文对 27 项任务进行了基准测试,包括 12 项运动任务和 15 项不同的操作任务。一组运动任务旨在提供有趣但更简单的人形控制场景,绕过复杂的灵巧手控制。另一方面,全身操作任务对最先进的算法进行了全面的评估,这些算法具有独特的挑战性,需要整个机器人身体的协调,范围从玩具示例(例如,在桌子上推箱子)到实际应用(例如,卡车卸货、货架重新排列)。
如图展示了HumanoidBench的各种全身操纵任务:

请添加图片描述

如图是HumanoidBench 运动任务套件:

请添加图片描述

实验中在两个操作任务(即推动和包装任务)上实施了分层 RL 方法。作为一项低级技能,推动使用单手伸手策略,允许机器人用左手到达空间中的 3D 点,而包装使用双手伸手策略,其中双手被命令到达不同的 3D 目标。

如图所示: (a) 分层RL方法流水线;(b) 在基于 MuJoCo MJX 的到达环境中,使用 PPO 对稳健的低级伸手策略进行预训练,如 (a) 中的顶部快照所示。© 然后,高级策略利用预训练的伸手策略,移动到所需位置并学习解决下游任务,如 (a) 中的底部快照所示。请注意,在高级策略训练期间,伸手策略权重是冻结的。

请添加图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值