基于人体运动数据以目标为中心的灵巧操作

24年11月来自斯坦福和北大的论文“Object-Centric Dexterous Manipulation from Human Motion Data”。

操纵目标以达到期望的目标状态,是灵巧操纵的基本但重要的技能。人类手部运动表现出熟练的操纵能力,为训练具有多指手的机器人提供了宝贵的数据。尽管具有这种潜力,但由于人手和机器人手之间的具身差距,出现了巨大的挑战。这项工作引入一个分层策略学习框架,该框架使用人手运动数据来训练以目标为中心的灵巧机器人操纵。该方法的核心是一个高级轨迹生成模型,该模型通过大规模人手运动捕捉数据集学习,合成以期望物体目标状态为条件的类似人类手腕运动。在生成的手腕运动指导下,深度强化学习进一步用于训练基于机器人具身的低级手指控制器,与目标进行物理交互实现目标。通过对 10 个家用目标的广泛评估,该方法不仅表现出卓越的性能,而且还展示了对新目标几何形状和目标状态的泛化能力。此外,将学习的策略从模拟迁移到现实世界的双手灵巧机器人系统,进一步证明了其在现实世界场景中的适用性。

如图所示:系统使用人手运动捕捉数据和深度强化学习来训练灵巧的机械手,以便在模拟和现实世界中实现有效的以目标为中心操作(即学习操纵目标以遵循目标轨迹)。

请添加图片描述

开发能够以人类水平的灵活性处理复杂操作任务的双手多指机器人系统,一直是机器人研究的长期目标。当机器人执行简单的拾取和放置以外的一般操作任务时,任务的定义可能很难确定。以前的研究以多种方式定义操作任务,包括环境状态 [1, 2]、符号表示 [3, 4] 或语言描述 [5, 6]。无论目标如何指定,这些定义的共同要素是以目标为中心的视角,重点关注被操作目标的状态。因此,本文工作的目标是训练一种策略,让双手灵巧的机器人根据定义为一系列目标姿势轨迹的任务目标来操纵目标。

以前的研究主要利用深度强化学习 (RL) 来学习以目标为中心的灵巧操作技能 [7–9]。尽管这些方法在诸如手中目标重定位 [10–12] 等任务中取得了成功,但它们通常只关注学习手指的运动,而忽略了双臂和双手的综合协调。训练控制机器人手臂和两只多指手的 RL 策略在理论上是可能的,但由于机器人动作空间的高度自由度,在实践中提出了巨大的挑战。模仿学习 (IL) 可以通过利用人体运动数据的指导来协助策略学习,从而潜在地应对这一挑战。然而,由于人手和机器人手之间的形态差异,另一个挑战出现了,这通常被称为“具身差距(embodiment gap)”。例如,一些机器人手设计只有四个手指,每个手指都比人类的手指大得多,这使得在实现预期的操作任务的同时,将人手轨迹重定位到机器人手上变得困难。

灵巧操作是机器人技术领域一个长期的研究课题 [14–17]。传统方法依靠解析动力学模型进行轨迹优化 [14、15、17、18],但由于接触动力学的简化,该方法在复杂任务中效果不佳。[19] 和 [20] 提出了基于模型的优化方法来解决接触丰富的灵巧操作任务,但需要正确的环境动力学模型。最近,深度强化学习 (RL) 在训练灵巧操作技能方面取得了可喜的成果,例如手中目标重定位 [10–12、21–28]、双手操作 [7、8、29]、顺序操作 [30–32] 和类似人类的活动 [33]。[24] 学习抓取策略,使目标遵循手动设计的轨迹。尽管取得了进展,但成功训练灵巧的强化学习策略通常需要大量的奖励工程和系统设计,这限制了它在某些情况下的实用性。除了强化学习,模仿学习 (IL) 也广泛用于训练灵巧策略 [34, 35]。通过使用人类遥控数据 [36–40] 进行监督学习,先前的研究在灵巧抓取 [41, 42] 和一般操作任务 [43–50] 中取得了令人印象深刻的结果。然而,由于现实世界机器人系统的要求,遥控数据通常很难收集。

最近,从人体运动数据中学习开始受到更多关注,因为它可以在没有机器人硬件的情况下扩大数据收集范围。先前的研究利用人体视频 [51–56] 和动作捕捉数据 [57–62] 来提取有价值的操作运动提示,例如轨迹级规划 [51, 59]、目标 affordance [53] 和运动先验 [52, 55]。对于灵巧操作,VideoDex [55]、DexMV [43]、DexTransfer [58] 和 DexCap [63] 展示了使用分析方法(例如逆运动学)将人手运动重定位到机器人硬件的潜力,例如匹配关节角度 [43, 55]、指尖位置 [63]。[64] 展示了对手指和手臂的独立控制,以捕捉目标的细节手部操作。DexPilot [38] 将重定向目标制定为非线性优化问题,并通过最小化成本函数将人体运动重定位到机器人。然而,由于人手和机器人手的具身存在差距,基于位置的重定向方法不能保证任务成功的复制。值得注意的是,[34, 65–69] 也分享了利用人类数据作为强化学习的指导或奖励的想法。

一个关键的观察结果是,由于具身差距,人类手指动作在各种操作任务中并不总是有用的。相比之下,人类手腕运动提供的宝贵信息,对具身差距不太敏感,例如手掌放在哪里以及如何与 3D 空间中的目标交互。这样的运动线索显著降低了 RL 训练中高维动作空间的复杂性,使其能够专注于探索手指运动以实现以目标为中心的任务目标。

基于这一观察,本文提出一个分层策略学习框架,由手腕的高级规划器和手的低级控制器组成。高级规划器是一种基于生成的策略,通过模仿人类手腕运动进行训练,以生成以目标运动的期望轨迹为条件的机械臂动作。根据生成的手臂运动,低级控制器输出通过 RL 探索而不是模仿人类数据学习的细粒度手指动作。RL 训练的奖励函数是交互过程中目标的运动与参考轨迹之间的似然性。通过利用 RL 和 IL 的优势,使机器人能够适应自己的手部形态,同时通过使用人类数据细化动作空间来保持训练的易于处理。

以目标为中心的操作任务的目标,是让机器人与目标进行物理交互以实现所需的运动轨迹。

该框架的概览如图所示,其框架由三部分组成:高级规划器、低级控制器和数据增强循环。

请添加图片描述

高层规划器

训练灵巧机器人策略(尤其是双手灵巧手)的关键挑战之一,是管理高维动作空间。尽管人类和机器人手之间存在具身差异,但人类手部运动(尤其是手腕运动)为如何与目标和环境互动提供了高度有用的提示。此类运动提示不仅缩小了机器人的动作空间,还为任务目标提供了指导。基于这一观察,首先训练生成模型,通过模仿动作捕捉数据中的人类手腕运动来合成手腕运动。

底层控制器

基于高级规划器 πH 生成的手腕轨迹,低级控制器 πL 可以从合理的手腕姿势开始,专注于学习细粒度的手指运动,以便与目标进行物理交互,从而实现任务目标 G。用近端策略优化(PPO)[70]来训练 π^L。

在某些情况下,当机器人的手比人的手大时,高级规划器 πH 生成的手腕动作需要相应调整。为此,πL 学习在固定范围内输出残余手腕动作 ∆aW/t(平移时为 ±4 厘米,旋转时为 ±0.5 弧度)。借助残余手腕动作,策略现在可以调整手腕位置以更好地合成机器人手的运动。最终的机器人动作是 (aW/t +∆aW/t ,a^F/t ) 的组合。

泛化的数据增强方法

仅使用 ARCTIC 数据集 [13] 训练策略会限制任务目标和生成运动的多样性。例如,给定一个大小为数据集中框两倍的框,由于未见过的目标几何形状,学习的策略很难有效地操纵该框。为了提高泛化能力,增强数据并训练策略以在这些场景中进行泛化至关重要。因此,本文提出数据增强循环 (DAL) 来处理训练 π^L 期间不同的目标几何形状和目标轨迹。

具体来说,在 π^L 的 RL 训练期间引入三种类型的增强:在所有三个维度(宽度、长度、高度)上随机化目标的大小、随机化目标的初始姿势以及使用航点插值修改目标的目标轨迹。然后,低级控制器在 RL 训练期间学习适应增强的场景。最后,收集低级控制器执行的成功运动轨迹并将其添加到训练数据集以微调高级规划器。通过利用 RL 训练过程的适应性,可以合成新的运动轨迹,以改进策略在原始训练数据范围之外的泛化能力。

如下是DAL伪代码:

请添加图片描述

模拟-到-真实迁移

将策略部署到现实世界时,有些观察结果无法准确估计,例如关节速度和目标速度。用师-生策略蒸馏框架 [11, 21, 71] 来消除策略对这些观察输入的依赖。在现实世界的部署中,系统使用四个自上而下的摄像头来执行铰接式目标姿势估计。用 FoundationPose [72] 来估计铰接式目标不同部分的 6-DoF 姿势并计算它们之间的关节角度。整个目标姿势跟踪系统以 15Hz 的速度运行。学习的策略会生成控制机器人的动作,低级控制器由具有指数移动平均 (EMA) 平滑因子的低通滤波器处理 [11],以减少机器人手指的抖动运动。

实验设置如图所示。模拟实验均在 10 个不同的种子中进行评估,真实世界实验均在 20 次不同的试验中进行评估。(a) 模拟工作区。用两个 Shadow Hands,每个都单独安装在单独的 UR10e 机器人上,并排排列。(b.1) 模拟中的目标集。(b.2) 现实世界中的目标集。© 现实世界的工作区,模拟的镜像,机器人系统使用与模拟相同的 Shadow Hands 和 UR10e 机器人。

请添加图片描述

感知的摄像头设置如下所示:

请添加图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值