2018年11月来自斯坦福大学的论文“ROBOTURK: A Crowdsourcing Platform for Robotic Skill Learning through Imitation”。
模仿学习解决强化学习的缺点(例如探索和奖励规范),推动了机器人操作任务学习的最新进展。然而,由于通过现有机制收集大量任务演示的难度,该领域的研究仅限于中等大小的数据集。本工作引入 ROBOTURK 来解决这一挑战。
ROBOTURK 是一个众包平台,使用广泛使用的移动设备(例如 iPhone)实现高质量的 6 自由度轨迹远程操作。在三个不同时间尺度(15-120 秒)操作任务上,对 ROBOTURK 进行评估,用户界面在任务完成时间方面与虚拟现实控制器等专用硬件在统计上是相似的。此外,观察到不良网络条件(例如低带宽和高延迟链路)不会显著影响远程用户在 ROBOTURK 上成功执行任务演示的能力。最后,收集一个驾驶员数据集证明 ROBOTURK 的有效性;使用 ROBOTURK,从远程工作人员那里收集 137.5 小时的操作数据,在总的 22 小时系统使用时间内,共计有超过 2200 次成功的任务演示。
有许多传统的机制可用于收集机器人学习的任务演示。一种流行的选择是通过运动引导机器人完成所需的轨迹 [14]。虽然直观,但这种监督机制可能很繁琐,并且通常仅限于收集数十个演示,而策略学习需要数百甚至数千个演示 [22]。或者,基于远程操作收集任务演示的技术已经使用了二十多年 [23, 24, 25]。远程操作监督可以通过现代游戏界面提供,例如键盘和鼠标 [26, 27]、视频游戏控制器 [28]、3D 鼠标 [29, 30]、专用主从接口 [31, 32],或通过自由空间定位界面,例如虚拟现实 (VR) [33, 34, 35]。
游戏界面经常在轨迹中引入伪影,从而降低这些数据用于模仿的效用 [36]。例如,由于只对动作子空间进行并发控制,轨迹可以更长,表现出轴对齐运动,并且缺乏运动的自然变化。相比之下,自由-空间的定位界面(如 VR)使用户能够通过在 3D 空间中移动手动控制器来直接挪动机器人的末端执行器,从而实现细粒度的灵巧控制。有趣的是,Zhang [34] 表明,可以使用数百个 VR 演示的数据,制作更简单的算法(如行为克隆的变型)来学习短期操纵任务。然而,专用 VR 硬件和客户端计算资源的需求,限制了这些接口在众包平台上的部署,例如 Amazon Mechanical Turk,在这些平台上,普通工人更有可能拥有智能手机而不是 VR 硬件 [37, 38]。
在其他领域,大规模数据集的监督通常是在众包的帮助下收集的 [1, 3]。这就提供了一种可扩展的机制,能够对大量问题实例进行多样化的人工监督。然而,收集大量数据一直是连续控制任务的一大挑战,因为它们需要实时交互和来自注释者的反馈,这对远程遥控平台提出了严格的限制。机器人技能学习的数据收集机制,需要远程用户的演示,这些演示既要自然(游戏界面往往缺乏这一点),又要丰富(自由-空间的定位界面往往缺乏这一点)。
如图所示:ROBOTURK是一个基于云的大规模数据收集平台,可实现快速模仿引导下的技能学习。系统包括以下主要步骤:1) 指定任务,2) 使用 ROBOTURK 收集大量任务演示,3) 使用演示-增强的强化学习来学习策略,以及 4) 在感兴趣的领域部署学习的技能。
ROBOTURK 在云基础设施上部署其核心组件。ROBOTURK 将机器人模拟卸载到强大的云机器上,而不是本地执行。机器人模拟机器通过低延迟通道与用户通信,接收控制模拟机器人手臂位置的命令;机器人的模拟器摄像头视图实时呈现并通过单独的低延迟链路传输给用户。ROBOTURK 利用 Web 实时通信 (WebRTC),这是一个开源框架,用于低延迟传输机器人控制命令和来自机器人模拟器的渲染摄像头视图。如图概述系统组件:新用户连接到网站加入系统,协调服务器为用户启动专用的远程操作服务器,如 (a) 所示;然后,协调服务器在用户的 Web 浏览器和 iPhone 以及远程操作服务器之间建立直接通信通道,启动远程操作会话;用户通过移动手机来控制模拟机器人,并在 Web 浏览器中接收视频流作为反馈,如 (b) 所示;每次成功演示后,远程操作服务器都会将收集的数据推送到云存储系统。
通过采用这种设计方法,ROBOTURK 消除了用户拥有强大的本地工作站以及安装或配置任何软件的需要。相反,用户只需要拥有(1)一部与苹果 ARKit 框架兼容的 iPhone(iPhone 6S 及以上版本)和(2)一个可以访问带有网络浏览器的单独设备,这两者都是普遍的设备 [38]。
实验采用三个模拟任务:块举起(举起)、箱子拾取(拾取)和螺母-钉子组装(组装),如图所示。举起是一个简单的任务,其中 Sawyer 机械臂必须举起一个立方体,这可以作为诊断示例,而拾取和组装任务则分别是将物体分类放入箱子中和将螺母安装到钉子上,是更具挑战性的设置。这些都是 SURREAL 机器人套件 [39] 的一部分,这是一组使用 MuJoCo 物理引擎 [40] 开发的操作任务,其灵感来自世界机器人峰会 [41] 中的任务。
为了评估该平台,对 8 名年龄在 18-30 岁之间的大学生进行了用户研究。每个用户针对 8 种不同的测试条件分别提供了 20 次举起任务演示和 5 次拾取任务演示。在前 4 种测试条件下,改变了控制界面。在后 4 种测试条件中,改变了用户在控制机械臂时遇到的网络条件。
如图所示各种 UI 的比较:(a)界面及其允许的移动说明 — 轴对齐(键盘)、6-DoF(3D 鼠标)和自由-空间(VR 和手机)。(b)表:不同界面之间拾取任务完成时间分布的 Kolmogorov-Smirnov (K-S)统计数据,后跟相关 p-值。成对 K-S 统计量用于衡量底层分布之间的差异。基于 5% 的统计显着性水平,完成时间遵循以下顺序:手机 ≈ VR 控制器 ≻ 3D 鼠标 ≻ 键盘
作为平台的初始试点,使用远程承包商收集超过 1000 个关于挑选和组装任务的演示数据集,总共使用 20 个小时的平台。事实上,这验证 ROBOTURK 是一个动态数据收集平台的概念,可用于快速按需众包数据。
评估收集的演示对于使用稀疏奖励强化学习的方法去学习策略的效用。考虑 Surreal Robotics Suite [39] 中的箱体挑选(罐)和螺母-钉子组装(圆)任务,分别缩写为罐挑选(can picking)和圆组装(round assembly)。这些是完整挑选和组装任务的简化版本,其目标是分别将单个罐放入其对应的箱体中并将单个圆螺母安装到其对应的钉子上。不使用奖励塑造;只有当智体成功完成任务时,才会向智体提供非零奖励。这使得探索变得具有挑战性——由于这些任务的组合结构,智体几乎没有机会通过随机探索找到目标状态。
为了在强化学习过程中利用演示,从演示轨迹中随机抽取的状态初始化训练情节,并使用近端策略优化 (PPO) 的分布式实现进行策略学习 [43, 44]。这种使用演示进行强化学习的简单方法在理论上得到 [45] 的启发,并在其他工作中得到实践应用 [46, 47, 39]。鼓励使用演示中访问的状态,而不是为训练情节设置 100 个时间步长的短视(myopic)范围来获得新经验。
为了研究利用更多演示指导强化学习的好处,比较在两个任务中使用 0 (纯 RL)、1、10、100 和 1000 次演示。对每个任务和演示数,从 10 个不同的随机种子训练策略,并报告 24 小时“罐挑选”任务和 48 小时“圆组装”任务的最终策略回报平均值和标准差。结果列于下表: