RoboAgent:通过语义增强和动作分块实现机器人操作的泛化和效率

23年9月来自CMU和Meta FAIR的论文“RoboAgent: Generalization and Efficiency in Robot Manipulation via Semantic Augmentations and Action Chunking”。

拥有一个可以在不同环境中操纵任意目标的机器人这一宏伟目标,与机器人数据集的匮乏相矛盾。由于人工、运营成本和安全挑战,获取和扩大此类数据集非常困难。实现这种通用智体的途径,需要一个能够广泛推广但训练数据预算合理的结构化框架。本文开发了一个高效的系统 (RoboAgent),采用 (a) 可以快速扩大现有数据集的语义增强,和 (b) 动作表示,其通过小而多样化的多模态数据集提取高性能策略而不会过拟合,训练具有多任务操纵技能的通用智体。此外,可靠的任务调节和富有表现的策略架构,使智体能够在语言命令指定的新情况下展示多样化的技能。

该系统仅使用 7500 次演示,就能训练一个能够掌握 12 种独特技能的单个智体,并展示其在 38 个任务中的泛化能力,这些任务分布在不同厨房场景的常见日常活动中。平均而言,RoboAgent 在未见过的情况下的表现,比之前的方法高出 40% 以上,同时具有更高的样本效率,并且可以通过微调来改进和扩展能力。

如图所示RoboAgent 的多样化操控能力:单个智体能够执行涵盖 6 项活动 38 项任务中的 12 种操控技能,基于多模态 MT-ACT(multi-task action chunking transformer)。

请添加图片描述

训练具有多种技能的机器人操纵者,需要接触不同的经验,并能够从不同的数据语料库中获取技能。在现实世界中收集这样的多技能数据语料库,需要付出巨大的努力,而且面临着高昂的运营成本和安全挑战。考虑到成本,机器人学习范式的效率,对于现实世界的训练和部署是必不可少的。尽管存在这些挑战,但最近仍有人在努力扩展现实世界的机器人数据集 [1、2、3],但在扩展的尝试中似乎忽视了效率 [4、5、6、7]。

随着机器人数据集规模的扩大,机器人学习通常会受益,因此本文重点是研究在给定数据预算下开发有能力智体的泛化能力。将自己限制在一个包含 7,500 条机器人操纵轨迹的数据集上(比相关数据集 [5] 少一个数量级),其中包含跨不同任务的多种操纵技能集合。由于在家庭、医院等现实环境中部署的机器人总会遇到未见过的场景,因此进行开发最有能力的智体,重点是其在数据预算范围内推广到新情况的能力。

乍一看,在数据预算范围内进行广泛推广似乎是一厢情愿的想法——虽然可以为智体的策略提供强大的表示能力,但如果没有数据多样性,则扩展可能会导致过拟合和无法泛化。本文的见解有两方面:(1)确保通过远程操作收集的数据集(包含 7500 条轨迹)充分覆盖不同场景中的不同技能。通过语义增强 [8、9、10],无需额外的人力/机器人成本,即可离线多样化收集的数据集,帮助在新情况下的泛化。(2)用 MT-ACT,能够处理多模态数据分布的多任务动作分块 transformer,训练语言为条件的操作策略。该架构利用机器人运动具有时间相关性这一事实,通过预测动作块 [11] 而不是每一步动作,从而实现更平滑的行为,并缓解低层数据模仿学习机制中常见的协变量漂移。

相关工作

考虑到机器人学习中监督的成本,利用大量未标记数据集的自监督学习 [12, 13, 14] 方法已成为构建通用智体的主导范式。大规模模拟 [15, 16, 17, 18] 也被利用,希望首先学习针对各种任务的通用多任务策略 [19, 20, 21, 22, 23, 24],然后通过 sim2real [25, 26, 27, 28] 将其转移到现实世界。然而,许多现有的多任务 RL 研究集中在模拟的狭窄领域 [22, 29],而现实世界中的研究表现出有限的泛化和任务多样性 [30, 9]。虽然其他研究 [19, 20, 31] 侧重于不同场景中的多任务设置,但它们仅限于在模拟中评估训练好的策略。

最近,许多方法将模仿学习与大规模高质量的真实世界机器人遥操作数据集相结合 [2、3、32、1、33、34]。虽然早期的工作收集了有限的真实世界数据 [3、33],但最近的方法 [1、5、7] 收集了更大的数据集。事实上,[5] 收集了可能是箱子和餐具设置之外最大的数据集(≈ 130K 个演示),并且展示了使用这些数据学习的技能泛化能力。本文有相似的想法,即专注于真实世界的操作任务,并旨在使用有限的真实世界演示学习多任务策略。然而,与 [1] 不同的是,避免使用玩具环境设置,而是专注于真实的真实世界厨房设置,场景中杂乱无章且有多个可行任务。此外,智体展现出的技能多样性远高于 [5, 7, 28],尽管智体只接受了 7.5k 条轨迹的训练,而 [5] 中则有 135k 条轨迹。重要的是,用商用硬件收集数据,并将其提供给所有的机器人研究者。

语言和视觉领域中大规模自监督方法的最新成功展示了大规模数据的优势。许多最近的研究建议使用主要在非机器人数据集上训练的预训练视觉表征 [35, 36] 来学习控制策略 [37, 38, 26, 39, 40]。这些研究大多侧重于单任务设置 [37, 38, 41, 42] 或模拟机器人环境 [26, 39]。鉴于收集现实世界机器人数据集的成本本身就很高,许多研究都侧重于使用替代数据源,例如语言 [43, 44, 45, 46]、人类视频 [47, 48, 49, 50, 51, 52, 53, 54] 和生成增强 [55, 56, 9, 8, 10]。

本文相似地采用生成增强这个方向,之前的一些方法使用扩散模型为在现实世界中收集的数据生成增强。然而,与一些先前的工作 [9, 8] 不同,本文方法是全自动的。不需要分割掩码 [9] 或目标网格 [8] 来生成增强数据。总的来说,与 [10] 最为相似,它采用预训练的开放世界目标检测模型 [57] 来生成分割,并与文本引导的扩散模型一起用于生成增强。然而,本文方法方法不需要对单独的开放词汇分割和语言基础模块进行进一步微调。更重要的是,本文方法进一步研究关于语义数据增强的缩放规律,证明其在帮助测试时泛化到未见过的场景方面具有有利的影响。

如图所示是MT-ACT的框架图:其分为两个阶段

请添加图片描述

1 语义增强。第一阶段通过创建基于现有机器人经验的多样化语义增强集来增加预先收集的数据集。这些语义增强将特定的机器人演示重新创建为多个演示,每个演示都有不同的语义上下文(目标、纹理、背景等),而无需额外的机器人或人力成本。这种数据多样化将现实世界的语义先验融入到多任务操作智体中,让它们做好准备,以应对部署期间可能遇到的分布外(OOD)场景。

2 策略学习。第二阶段从有限的技能数据中学习强大的技能,将设计选择从之前有限的单任务设置调整到具有多样化技能的多任务多场景操作任务的大规模泛化环境。开发的 MT-ACT,是一种语言为条件的新型策略架构,用于训练能够从多模态数据集中恢复多种技能的强大智体。为了对多样化的多模态多任务增强数据集进行建模,采用了条件变分自动编码器 (CVAE) [58] 来识别动作分布模式。这样能够根据 CVAE 编码拟合高容量 Transformer [59],从而有效地捕获增强数据集中的变化和依赖关系。该策略还利用了机器人运动具有时间相关性这一事实。预测动作块 [11] 而不是每一步动作,可以实现更平滑的行为,并减轻在低层数据模仿学习机制中常见的协方差漂移。

训练一个能够在新场景和任务中稳健地展示多样化技能的通用智体需要接触与这种多样性相匹配的经验。为了实现构建数据高效机器人学习范式的目标,将自己限制在一个预先收集的小型但多样化的数据集 - RoboSet(MT-ACT)。为了捕捉行为多样性,确保对不同核心技能的充分覆盖,其中每个技能被定义为导致目标姿势合理变化的时间相关动作序列。示例技能包括关闭/打开铰接目标、滑动、擦拭。每个技能都在一组目标中实例化。将这种(技能,目标)组合称为“任务”,任务在不同的厨房场景中实例化。不再是随机收集任务,而是将任务组构建为属于家庭活动的一部分,以便可以按顺序执行它们以获得有意义的结果,例如清洁厨房。

下表是 RoboSet(MT-ACT)和其他开源机器人操作数据集的比较:

请添加图片描述

下图显示 RoboSet(MT-ACT)的12个操作技能统计:

请添加图片描述

如图所示MT-ACT 的策略架构。用 CVAE 来学习动作序列的潜在编码 z,隐式识别数据中的不同模式。Transformer将潜代码、任务的语言嵌入和来自四个摄像头视图的图像嵌入作为输入,以自回归方式输出块大小为 H 的动作序列 at:t+H。右侧显示了用于语言调节的 FiLM 层 [64] 详细信息。

请添加图片描述

如图显示了机器人环境 RoboPen,它由一个带有日常物品的厨房设置、一个Franka Emika Panda 手臂、配备和 Festo Adaptive Fingers 匹配的双指 Robotiq 夹持器 、三个固定摄像头(顶部、左侧、右侧)以及一个安装在末端执行器上方的腕式摄像头组成。四个 Realsense D455 摄像头视图提供了工作空间的互补视角,利用所有这些视角进行稳健的策略学习。

请添加图片描述

用于评估的机器人环境包括桌面厨房设置,场景中存在各种真实目标。有 4 个摄像头提供工作空间的互补视图。该机器人是一个 Franka Emika Panda 手臂,通过关节位置控制进行操作,动作空间维度为 8(7 个关节位置,1 个用于末端执行器打开/关闭的维度)。机器人手臂有一个双指夹持器和一个腕部摄像头。机器人以 5Hz 的频率运行。

  • 10
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值