从演示中学习的机器人:最新进展

20年3月《Annual Review of Control, Robotics, and Autonomous Systems》中来自GeorgiaTech和EPFL的论文“Recent Advances in Robot Learning from Demonstration”。

在机器人技术和自动化领域,从演示中学习 (LfD) 是机器人通过学习去模仿专家获得新技能的范例。当理想行为,既不能轻易编写脚本(如在传统机器人编程中所做的那样),也不能轻易定义为优化问题,但可以演示时,选择 LfD 而不是其他机器人学习方法就是令人信服的。本综述旨在概述用于使机器人能够向老师学习并模仿老师的机器学习方法集合。重点介绍该领域的最新进展,并介绍现有方法的最新分类和特征。还讨论了 LfD 的成熟和涌现应用领域,并强调了理论和实践上仍需克服的重大挑战。

在机器人和自动化领域,从示范中学习 (LfD) 是机器人通过学习模仿专家来获得新技能的范例 【1–4】。

通过传统的机器人编程方法开发新的机器人任务,需要编码专业知识和大量时间投入。此外,传统方法要求用户明确指定机器人必须执行的动作或运动序列才能完成手头的任务。利用运动规划【5,6】的方法,旨在消除指定整个低层动作序列(例如轨迹)的需要去克服传统机器人编程的一些负担。但是,运动规划方法仍然需要用户指定更高层的动作,例如目标位置和途经点序列。这种规范对环境变化也不具有鲁棒性,需要重新指定或编程。

LfD 的一个吸引人的方面,是它能够促进非专家机器人编程。 LfD 通过从演示中隐式学习任务约束和要求来实现这一点,这可以实现自适应行为。换句话说,LfD 使机器人能够摆脱在受限环境中重复简单的预定行为,转而学习在非结构化环境中采取最佳行动,不会给用户带来太大的负担。因此,LfD 方法有可能使各种行业受益匪浅,例如制造业 【7】和医疗保健业【8】,在这些行业中,它可以让机器人知识有限的专家高效、轻松地编程和调整机器人行为。

过去十年来,人们对通过示例教育机器人的研究兴趣一直在稳步增长。该领域的算法和术语(如图所示),都多种多样。模仿学习、通过演示编程和行为克隆是用来描述从演示中学习过程的其他流行短语。

请添加图片描述

不同类型的学习(监督、强化和无监督)已被用于解决机器人学习中的大量问题。 不同风格的选择并非易事,并且由与感兴趣问题相关的要求和限制决定。 LfD 尤其可以被视为监督学习问题,因为它试图从外部教师(可用的演示)那里获得新技能。

与任何学习范式一样,LfD 也存在其挑战和局限性。底层机器学习方法,对可 LfD 学习的技能类型有重大影响,因此 LfD 中的许多挑战直接源自机器学习技术面临的挑战。这些挑战包括维数灾难、从非常大或非常稀疏的数据集中学习、增量学习以及从噪声数据中学习。除了这些挑战之外,当 LfD 用于控制物理机器人系统时,它还继承了控制理论的挑战,例如系统在外部干扰下的响应可预测性、确保接触时的稳定性以及收敛保证。最后,也许最重要的是,由于 LfD 依赖于外部智体(通常是人类)的演示,因此它必须克服人机交互中众所周知的各种挑战,例如找到合适的界面、人类表现的差异以及人类受试者之间知识的差异。虽然人类可能彼此不同,但他们的差异(至少在物理上)不如机器人那么明显。因此,LfD 不仅对谁教机器人很敏感,而且相当依赖所使用的平台(机器人加界面)。

过去 20 年里,已经发表了多项关于 LfD 的综述研究,重点关注该领域的不同子集;这些综述研究代表了该领域的发展。Schaal 【1】介绍了第一份关于 LfD 的综述研究,重点关注模仿和基于轨迹的技能。Osa 【11】 介绍了同一主题的最新研究,其侧重于算法的视角。Billard 【2,10】介绍了 LfD 的广泛综合,其中融入了人机交互的元素,并从该领域的四个核心问题的角度构建了研究框架:如何模仿、模仿什么、何时模仿以及模仿谁。Argall【3】和 Chernova & Thomaz【4】提出了 LfD 的分类法,描述了演示输入的类型和学习方法的变化。Bohg 【12】对抓取合成这通用主题进行了详细综述,其中包括该特定领域中使用的 LfD 方法分类。最后,Zhu & Hu【7】讨论了对可适应制造机器人系统的需求如何带来 LfD 方法在工业装配任务中的应用。

设计 LfD 范式时,首先要做出的决定之一是演示所采用的技术。虽然这种选择看似简单,但它取决于多种因素,并可能产生多种后果。一般来说,如图所示,演示方法分为三类:运动感觉教育、远程操作和被动观察。

请添加图片描述

相关的例子如图所示:

请添加图片描述

如表总结了这些类的演示难易程度、处理大自由度的能力以及是否易于将演示映射到机器人的配置或操作空间方面的主要异同。

请添加图片描述

运动感觉教育主要应用于操作平台,它使用户能够通过物理地移动机器人完成所需的动作来进行演示。机器人在交互过程中的状态,通过其机载传感器记录 (例如关节角度和扭矩),从而为机器学习模型提供训练数据。运动感觉教育因其直观的方法和极低的用户训练要求,受到包括轻型工业机器人在内操纵器的欢迎。此外,运动感觉教学只需要开发和维护机器人硬件,而不依赖于额外的传感器、接口或输入。最后,使用集成传感器直接在机器人上记录演示可消除对应问题,从而简化机器学习过程。

远程操作是另一种广泛使用的演示输入,已应用于轨迹学习、任务学习、抓取和高级任务。它需要通过操纵杆、图形用户界面或其他方式向机器人提供外部输入。人们已经探索了各种各样的界面,包括触觉设备和虚拟现实界面。与运动感觉教育不同,远程操作不需要用户与机器人同时在场,从而允许在远程环境中应用 LfD 技术。此外,远程演示者的访问为大规模众包演示提供了机会 。

第三种演示方法是让机器人通过对用户的被动观察来学习。在这种方法中,用户使用自己的身体执行任务,有时还会使用额外的传感器来辅助跟踪。机器人不参与任务的执行,只充当被动观察者。这种学习通常被称为模仿学习,对于演示者来说特别容易,几乎不需要任何训练即可完成。它也非常适合应用于多自由度机器人和非人形机器人,因为这些机器人很难进行运动感觉教育。

然而,机器学习问题很复杂,因为需要编码或学习从人类动作到机器人可执行动作的映射。人类动作观察中的遮挡、快速移动和传感器噪声给这种类型的任务演示带来了额外的挑战。尽管面临挑战,被动观察学习已成功应用于各种任务,例如协作家具组装、自动驾驶、桌面动作和打结。在某些情况下,不会直接观察人类用户,而只会跟踪场景中的目标。

一旦选择了演示方法,剩下的就是选择演示什么,以及演示是应该由机器人请求还是由人发起。

回答如下一个基本问题,可以对 LfD 方法进行重要的分类:学到了什么?LfD 方法的学习结果,取决于适合所关注问题的抽象级别。例如,虽然一项任务可能需要学习机器人的低级行为,但另一项任务可能需要提取一组基本动作的序列动态和/或它们的相互依赖性。具体来说,如图所示,学习方法可以分为三大类,每类都有不同的学习结果:策略、成本或奖励和规划。

请添加图片描述

选择追求哪种学习结果并非易事,取决于任务和相关约束。下表总结了这些选择在学习低级策略、处理连续动作空间、紧凑地表示所学技能、长期规划以及学习由多个子任务和排序约束组成的复杂任务能力方面主要相似之处和不同之处。

请添加图片描述

策略学习方法假设存在一个直接且可学习的函数(即策略)来生成所需行为。将策略定义为将可用信息映射到适当动作空间的函数。策略可以用数学表示为π:X→Y,其中X是域(策略的输入空间),Y是其余域(动作空间)。策略学习方法的目标是学习策略π(·),该策略生成与专家演示的状态轨迹{x(t)}相似。

最近,利用对抗学习和逆强化学习(IRL)之间的联系提出生成对抗模仿学习(GAIL)。尽管密切相关,但GAIL不能归类为IRL算法,因为它不学习奖励函数。相反,GAIL可以被视为一种策略学习算法,因为它直接从演示中学习策略。

策略学习方法可以根据输入空间(时间、状态和观测)、输出空间(轨迹和底层动作)和策略(确定和随机)进一步分为不同类型。
成本/奖励学习的方法,假设理想行为源自隐藏函数(称为成本函数或奖励函数)的优化。此类方法的目标是从可用的演示中提取隐藏函数。随后,机器人通过优化已识别的函数来重现学习的行为。事实上,学习成本或奖励函数需要对任务和环境做出某些假设。有两类方法,它们对任务和环境做出了两组不同的假设:轨迹优化和 IRL。

规划学习的方法,包括在最高任务抽象级别上学习的方法。假设感兴趣的任务是根据由多个子任务或原始操作(即任务规划)组成的结构化规划执行的。结构化任务规划,通常对子任务或原始操作中的模式和约束进行编码,并将机器人从初始状态带到目标状态。给定任务的当前状态,任务规划会在一组有限的子任务中提供最合适的下一个子任务。

从演示中学习任务规划的方法可以学习原始序列或原始层次结构。原始序列表示简单顺序以及任务所涉及步骤的相关约束。另一方面,原始层次结构包含高级结构化指令,并提供可以捕获可变排序和不确定性的规划。例如,层次结构可用于捕获某些子任务可以按任何顺序执行的事实。LfD 还已应用于从专家演示中学习规划时间表。

LfD的应用如下:
操纵器
移动机器人

挑战和机会如下:
泛化
超参选择
评估和基准
其他:多模态、低层和高层行为同时学习、多个演示者和云机器人

  • 15
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值