BridgeData V2:大规模机器人学习数据集

24年1月来自UCBerkeley、Stanford、Google和CMU的论文“BridgeData V2: A Dataset for Robot Learning at Scale”。

BridgeData V2,一个庞大而多样化的机器人操作行为数据集,旨在促进可规模化机器人学习的研究。BridgeData V2 包含在一个公开可用低成本机器人在 24 个环境中收集的 60,096 条轨迹。BridgeData V2 提供了广泛的任务和环境可变性,从而产生了可以跨环境、领域和机构进行泛化的技能,使该数据集成为宽广研究人员的有用资源。此外,该数据集与各种以目标图像或自然语言指令为条件的开放词汇、多任务学习方法兼容。在实验中,在数据集上训练了 6 种最先进的模仿学习和离线强化学习方法,并发现它们在一系列需要不同程度泛化的任务上取得了成功。随着数据量的增加和模型容量的增加,这些方法的性能会提高,并且对更多种类的技能进行训练可以提高泛化能力。

一个有用的机器人系统需要能够泛化现实世界中各种条件的技能。计算机视觉和自然语言处理领域的最新结果表明,可以在大型和多样化数据集上训练高容量模型来获得广泛的泛化能力 [1, 2]。如何将同样的方法应用于机器人技术?一般来说,策略似乎很简单。首先,收集大量机器人行为演示数据集。然后,训练一个富有表现力的策略,通过行为克隆或离线强化学习 (RL) 提取所需的行为。在足够多的设置中提供足够的数据,应该学习一种可以泛化到许多任务和环境的策略。

然而,在实践中,构建一个具有正确特征的数据集加速大规模机器人学习的研究是一项重大挑战。由于收集大量机器人行为数据集非常耗时,因此该数据集应该可以在收集它的机构之外重复使用。理想情况下,任何研究人员都可以在数据集上进行训练并获得在其任务上具有合理性能的策略。为了实现这一点,数据集需要广泛覆盖任务和环境,以便从数据中学习的策略可以推广到新的实验室设置。许多现有的机器人数据集仅包含一个或几个环境和任务 [3、4、5],这意味着研究人员需要从数据中精确复制一个场景才能将其用于机器人学习。此外,数据集应通过目标图像或自然语言指令支持灵活的任务调节,以便研究人员可以轻松命令在数据上训练的策略执行新任务。重要的是,数据集应包含给定环境中许多可行任务的数据,以便多任务策略必须学会关注任务规范,而不是从初始观察中推断任务。

如图所示:BridgeData V2 是一个大规模机器人操作数据集,其中包含 24 个环境中的 60,096 条轨迹。该数据集包括拾取和放置、推动、清扫、堆放、折叠等技能。部分数据包括多个摄像头视图和深度数据,所有数据都包含自然语言标签。

请添加图片描述

BridgeData V2 和其他相关数据集的比较如表所示:BridgeData V2 是一个大型且多样化的公开机器人操作数据集,适用于各种各样的学习方法。

请添加图片描述

这个工作的目的是使数据集不仅适用于多任务模仿学习,还适用于可能具有不同假设的各种学习方法:例如,需要覆盖范围更广的数据并可能受益于含噪次优轨迹的强化学习方法 [46],需要语言描述来运行语言条件下模仿学习的方法 [5],或使用高容量模型并需要非常大的数据集才能充分发挥潜力的方法 [7]。为了验证这一点,在评估中特意选择各种各样的方法,为说明其提供一个与多种方法兼容的单一数据集 [7, 47, 48, 17]。这非常不简单,因为几乎所有先前的机器人操作数据集都只用一种或几种方法进行评估 [23, 5, 7]。此外,与许多先前的数据集 [23, 5] 不同,这样的实验分离出数据多样性的影响,表明更大的多样性可以提高泛化能力,证实 Brohan 的结果 [7]。该实验扩展了 Brohan 的研究[7] ,其工作表明技能多样性不仅能提高目标多样性,还能提高泛化能力。早些时候发布的RH20T [49],与 BridgeData V2 同时收集,它提出一个包含多个机器人和 13k 个演示的数据集。虽然 RH20T 规模庞大且种类繁多,但BridgeData V2 上训练的策略可以跨环境和机构进行泛化。

数据集的设计目标,是促进大规模机器人学习的研究。该数据集应支持推广到新任务、环境甚至机构。该数据集还应支持通过目标图像或自然语言指令进行灵活的任务调节。

该机器人装置如图所示,WidowX 250 机械臂和各种摄像头,总成本约为 4,000 美元,其零件全部可公开购买。感知部分,有一个固定在肩上视角的 RGBD 摄像头、两个在数据收集期间姿势随机的​​ RGB 摄像头和一个连接到机器人手腕的 RGB 摄像头。图像以 640x480 分辨率保存,控制频率为 5 Hz。使用 VR 控制器远程操作机器人来收集演示。

请添加图片描述

设计数据收集协议来支持学习多任务、可推广的技能。为了支持广泛的推广,在许多环境中收集了各种任务的数据,并在目标、相机姿势和工作空间定位方面进行适当的改变。为了支持多任务学习方法的评估,在每个环境中同时收集了许多可能任务的数据。这确保了策略必须关注任务规范,而不是从观测中推断任务。值得注意的是,这种理念不同于原始的 Bridge 数据集,在 Bridge 数据集中,数据为特定的(较小的)一组预定义任务而收集。

例如,可能会设置一个厨房场景,其中包含几种食物和餐具以及一个抽屉。然后,数据收集器通过执行任何可行的任务来收集演示,例如打开抽屉或将餐具放入水槽。为了加快数据收集速度,不要求在轨迹之间重置环境中目标或机器人的位置。也不要求数据收集器用任务名称标记轨迹。每 50 条轨迹,收集器就会随机化摄像机的姿势、切换场景中的目标,并随机化工作空间相对于机器人的位置。

重定位目标是一项广泛适用的技能,因此希望学习可以在许多环境中拾取和放置大量目标的策略。在数据收集过程中,用高度随机化的脚本策略,部分地自动化“拾取-和-放置”操作数据的收集。虽然此策略经常失败,但可以自主运行,比远程操作机器人更快地为各种目标收集大量“拾取-和-放置”数据。受益于次优数据的方法(例如离线 RL),可以利用这些自主数据来学习更稳健的行为。注:用户可以自由地从训练中排除自主数据,但这个数据集提供了探索这两种选择的灵活性。

由于在数据收集期间没有用任务名称注释轨迹,因此用众包平台事后标记数据。要求注释者描述机器人在每条轨迹上执行的任务,特别强调任何移动目标的最终位置。

为了有效地描述数据集的组成,首先定义“技能”和“任务”,这两个术语在先前的工作中具有许多不同的含义。“技能”表示有类似运动的轨迹组——例如拾取-和-放置、打扫、折叠或开门——但可能涉及不同的目标或目标排列。“任务”表示与类似语言指令相对应的轨迹组,这在实践中通常意味着对不同目标(例如叉子或碗)的类似动作(例如拾取-和-放置)对应于相同的技能,但对应于不同的任务。

BridgeData V2 包括 13 种复杂程度不等的技能。大部分数据由拾取和放置、推动和重新定位物体的基本技能组成,因为这些技能适用于各种各样的环境,掌握这些技能可能会转移到更复杂的行为。更复杂的技能包括打开和关闭门和抽屉、擦拭表面、折叠布、堆砌积木、扭动旋钮、拨动开关、转水龙头、拉拉链以及使用工具清扫颗粒介质。为了确保能够学习可推广的技能,数据包括应用于各种目标和各种环境的每种技能示例。BridgeData V2 具有 24 种环境,包括厨房、水槽和桌面,以及 100 多个目标。总的来说,BridgeData V2 包含 50,365 个专家演示和 9,731 条来自脚本策略的轨迹。如图显示演示数据中环境和技能的细分:

请添加图片描述

如图显示了一些目标和技能示例:

请添加图片描述

为了证明 BridgeData V2 与具有不同假设的各种学习方法兼容,用这些数据评估了几种最先进的离线学习方法。选择目标条件方法(以目标图像的形式)和语言条件方法,因为数据集是为开放词汇任务规范而设计的。除使用 320x256 RGB 图像的 RT-1 外,所有方法的观测空间都是 128x128 RGB 图像。只使用肩上摄像机视图。机器人的 7-D 动作空间由连续的 6-D 笛卡尔末端执行器运动组成,对应于姿势的相对变化,以及用于控制夹持器打开和关闭的离散维度。

目标为条件的方法包括:

用目标行为克隆(GCBC)
扩散行为克隆(D-GCBC)
用Transformer对动作分块(ACT)
对比强化学习(CRL)

语言为条件的方法包括:

用语言行为克隆(LCBC)
机器人Transformer(RT-1)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值