具身智能行为学习需要什么数据?(五)

6. 数据采集平台和数据集

机器人操作策略的一个关键特性是其泛化能力,即在新的光照条件下、在新的环境中或使用新的目标执行所需的操作任务。训练能够适应此类变化的策略是将机器人部署到日常环境中的关键一步。

训练此类可泛化策略的关键要素是用于训练的多样化数据:在计算机视觉 (CV) 和自然语言处理 (NLP) 中,使用从互联网上爬取的大型多样化数据集进行训练可以生成适用于各种新任务的模型。

同样,在机器人操作中,更大、更多样化的机器人训练数据集可以帮助突破策略泛化的极限,包括主动转移到新的目标、指令、场景和实现。创建大型、多样化、高质量的机器人操作数据集是制定更强大的机器人操作策略的重要基石。

与 CV 和 NLP 等领域相比,高质量数据的稀缺在许多方面阻碍了机器人技术的进步。为了应对这一挑战,研究人员提出了基于少样本学习和多任务学习等技术的算法。虽然这些方法在缓解数据稀缺问题方面显示出希望,但它们仍然依赖大量高质量数据来实现有效的任务泛化。

无论是从规模还是相关内容来看,互联网视频数据都有助于缓解机器人技术中的数据瓶颈问题。具体来说,其好处包括:(i)提高现有机器人数据的泛化能力,(ii)提高机器人数据分布的数据效率和性能,以及(iii)可能获得无法仅从机器人数据中提取的涌现能力。

从互联网视频中学习机器人动作仍然面临许多基本和实际挑战。首先,视频数据通常是高维的、嘈杂的、随机的,并且标记不准确。其次,视频缺乏对机器人技术至关重要的信息,包括动作标签、低级力和本体感受信息。此外,互联网视频和机器人领域之间可能会发生各种分布变化。

该领域的两个关键问题是:(i)如何从互联网视频中提取相关知识?(ii)如何将从视频中提取的知识应用于机器人技术?

与此同时,人们一直在寻求收集更大的现实世界机器人数据集。这方面的努力包括汇总人类远程操作和不同的实验室数据。还有研究自动化数据收集、提高可扩展性和远程操作的方法。

机器人演示收集最常见的方法是将机器人或末端执行器与远程操作员设备或运动同构设备配对。所使用的设备具有各种复杂性和外形大小:

  1. 完整的机器人外骨骼,如 TABLIS [49]、WULE [138]、AirExo [188] 和 DexCap [263];
    请添加图片描述

  2. 更简单的机器人数据收集工具,如 ALOHA [145]、GELLO [187]、移动 ALOHA [228]、ALOHA 2 [271] 和 AV-ALOHA [337] 等;
    请添加图片描述

  3. 非物理移动机器人,如 Dobb-E/stick v1 [214]、UMI [247]、UMI on Legs [315]、RUM/Stick v2 [332] 和 Fast-UMI [338];
    请添加图片描述

  4. 使用视频游戏控制器(例如操纵杆),如 LIBERO [156];
    请添加图片描述

5)通过VR设备进行控制,如Holo-Dex [107]、AnyTeleop [164]、Open Teach [258]、HumanPlus [301]、Open-Television [307]、ACE [327]、ARCap [346]、BiDex [359];
请添加图片描述

6)通过手机进行控制,如RoboTurk [28]。

请添加图片描述

通过遥控机器人系统收集的演示数据提供了精确的域内观察-动作对,从而能够通过监督学习实现有效的机器人策略学习。然而,对机器人系统和熟练的人类操作员的要求,极大地限制了数据收集的可访问性和可扩展性。

由于成本、时间、不一致性和准确性等各种因素,现实世界机器人数据的收集面临着巨大的挑战。

由于这些困难,公共机器人数据集相对稀缺。此外,在现实条件下评估机器人系统的性能又增加了一层复杂性,因为准确重现设置具有挑战性,而且通常需要人工监督。

解决现实环境中数据稀缺问题的另一种策略是利用人类数据。由于其灵活性和多样性,人类行为为机器人政策提供了大量指导。

然而,这种策略也有固有的缺点。捕捉人类的手/身体动作并将其传输给机器人本质上是困难的。此外,人类数据的不一致性也带来了问题,因为有些数据可能是第一人称自我中心的,而另一些数据则是从第三人称视角捕获的。此外,过滤人类数据以提取有用信息可能非常耗费人力 [248]。这些障碍凸显了将人类数据纳入机器人学习过程的复杂性。

一些数据集和基准可能不会直接用于机器人操纵和导航,但它们针对的是具身智能的其他相关能力,例如空间推理、物理理解和世界知识。这些能力对于任务规划者来说是无价的。

虽然像 Open X-embodiment [195] 这样的预训练数据集似乎具有统一的结构,但仍然存在重大问题。这些问题是由于缺乏如下这些因素造成:传感器多模态性、多机器人的统一格式、不同平台的兼容性、足够的数据、包括模拟和真实内容的数据集。

一些已知的机器人操作数据集包括 RoboNet [35]、BridgeData 1/2 [70, 179]、RH20T [173]、RoboSet [182]、Open-X [195]、Droid [269]、BRMData [291] 和 ARIO(统一数据格式)[325]。

请添加图片描述

或者,可以使用便携式系统收集人类演示,而无需物理机器人硬件。 这些系统利用人类的灵活性和适应性直接操纵野外目标,从而促进创建大规模、多样化的人类演示数据集。 然而,由于缺乏机器人硬件,目前尚不清楚收集的演示数据是否可用于训练机器人策略,而无再需要多步骤过程。

人类和机器人在具体实施上的差异需要数据重定向(retargeting)。 此外,必须通过在与真实目标交互的实际机器人上重放动作来验证重定向的数据。 最后,必须使用经过验证的数据训练机器人策略。

人类演示的成功在很大程度上取决于操作员的经验以及对机器人和人类之间几何形状和能力差异的认识。失败可能发生在重定向阶段,原因是机器人的关节和速度限制;失败可能发生在验证阶段,原因是意外碰撞;失败可能发生在策略训练阶段,原因是包含无效数据。

人类动作数据集包括 EPIC-Kitchens [42]、Ego4D [71]、HOI4D [79]、Assembly101 [83]、InternVid [167]、Ego-Exo4D [216]、Behavior-1k [260]、EgoExoLearn [266] 和 COM Kitchens [321]。

请添加图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值