智能机器人在基础模型范式下的潜在能力

本文节选自大模型——基础模型的开山之作《On the Opportunities and Risks of Foundation Models》的关于机器人的章节。作者包括Siddharth Karamcheti, Annie Chen, Suvir Mirchandani, Suraj Nair, Krishnan Srinivasan, Kyle Hsu, Jeannette Bohg, Dorsa Sadigh, Chelsea Finn。

机器人研究的一个长期挑战是赋予机器人处理它们在真实世界环境中所遇到的无数条件的能力。在本节中,我们将讨论基础模型如何能够潜在地帮助实现“通用型”机器人,例如,能够在新房子里用新的厨房烹饪新的食物。我们专注于基础模型在物理体现方面的应用——这一轴线与传统上在语言和计算机视觉方面研究的问题形成了鲜明的对比,在这些方面这种模型已经取得了成功。机器人学基础模型的前景在于它们能够扩大机器人的潜力,以改善日常生活的关键方面,包括制造[Nof 1999; Sanneman等人,2020]、建筑[Khoshnevis 2004; Bock 2007]、自动驾驶[Thorpe等人,1988; Badue等人,2020]。1988;Badue等人,2020],到家庭援助[Thrun和Mitchell 1995;Brooks 2002;Dillmann 2004;Goodrich和Schultz 2007;Gupta等人,2018;Shridhar等人,2020]和个人援助[Dragan和Srinivasa 2013;Javdani等人, 2018]等等。我们在这一节的讨论主要集中在用于家庭任务的移动复制机器人上,但我们希望其本质能广泛适用于上述机器人技术的其他用例。

图 1 机器人学的基础模型需要跨越不同环境和行为的大量数据集。仿真、机器人互动、人类视频和自然语言描述都可以成为这些模型的有用数据源。尽管在获取数据方面存在挑战,但机器人学的基础模型对于任务规范和机器人学习中的各种问题表述具有巨大的潜力。图片来源。[Finn等人,2016b; Szot等人,2021]。

在实现机器人基础模型的关键路径上,是拥抱任务规范和任务学习的机会,同时解决数据采集、安全和稳健方面的挑战。考虑以下的机器人学习范式:从任务描述开始,捕捉用户可能希望机器人做的事情(例如,"做早餐")——学习相应的策略以生成所需的机器人动作。虽然策略可以以不同的方式进行参数化,但一个常见的选择是,将任务表示和环境观察(例如,来自固定或自我中心相机的场景图像,或来自激光雷达等替代传感器的输入)映射到机器人行动的函数[Andrychowicz等人,2017;Nair等人,2018]。当机器人以任务为条件行动时,随后的状态被反馈到策略中,产生更多的行动,直到任务得到满足。

然而,在实践中实施这样的范式是困难的。首先,什么是描述一个人的目标的正确界面?对于一个特定的用户来说,“做早餐”意味着一顿完整的早餐,包括煎蛋、吐司和一杯橙汁;而对于另一个用户来说,“做早餐”可能是指带桑巴的伊德利饼和一壶过滤咖啡。一般来说,像这样高层次的、依赖于环境的目标并不是独立存在的,它可能会带来许多模糊不清的地方。如何以足够清晰的方式指定一个目标(和相应的子目标),以解决这些模糊不清的问题,并在这样做的时候,让机器人在给定的任务中取得进展?此外,我们如何制作一般的任务表述,以帮助概括类似的目标(例如,取一杯牛奶而不是橙汁)。再进一步说,我们如何建立方法来帮助机器人学习新任务和新环境的政策(在这种情况下,一个全新的厨房,有新的餐具、电器、布局等)。

最近在应用语言和视觉的基础模型方面的突破(§2.1:语言和§2.2:视觉)表明,这些模型对提高泛化能力有几个潜在的好处。利用不同的数据流来学习有意义的表征先验(类似于BERT和GPT-3等模型所学习的那些)的能力为学习强大的任务规范基础模型带来了希望;人们还可以利用这些数据(继计算机视觉和视频处理方面的工作之后)来引导强大的基础模型来学习动作条件动力学模型或索引一般和语义上有意义技能的策略。然而,尽管存在这些机会,关键的绊脚石是收集正确的数据。与语言和视觉数据不同,机器人数据既不丰富,也不能代表足够多样化的体现、任务和环境——我们(作为一个领域)仍然没有汇聚在对实现通用机器人技术有最大帮助的数据类型上(例如,离线演示、人类的第三人称记录、以自我为中心的视频、自主经验等)。 与获得适当规模和多样性数据的问题相伴的是确保安全和稳健的问题:我们如何在一个新环境中表现得不造成损害?

因此,基础模型在机器人领域的应用包含了机遇和挑战的二分法:任务规范和学习的机遇与数据收集和安全部署的挑战相平衡。本节通过介绍基础模型如何帮助我们开发通用机器人来探讨这两方面的问题,这种方式不仅能有意义地解决与构建此类系统相关的挑战,而且还能拥抱多模式的潜力——包括感知、驱动和语言——以及人与机器人的互动,以实现规范和学习。

2.3.1 机会

机器人学的基础模型可以有多种形式:机器人学中的问题不容易符合一个万能的模型,因为不同的问题有不同的输入输出特征——这与NLP这样的领域形成了鲜明的对比,在NLP中,许多问题可以被铸成一个通用的“文本输入,文本输出”的特征。我们关注的是在任务、环境和机器人体现中的可概括的任务规范和学习机会。

面向任务规范的基础模型在机器人能够学习如何以通用的方式解决任务之前,它们必须了解所需的任务是什么:例如,为了在一个新的厨房里发挥作用,机器人需要知道我们希望它做什么,以及我们希望它避免的行为。因此,开发通用型机器人的第一步是建立可靠的任务规范模型,即直观有效地交流任务目标、偏好和约束。我们将任务说明规范化为一个过程,将人类提供的任务描述转化为衡量机器人任务完成情况和进度的量化指标——例如,奖励函数。这个信号对于优化机器人行为、诊断故障和提示人类反馈至关重要。由于描述任务的最自然方式会因用户、环境或任务的不同而不同,任务规范的基础模型应该接受各种描述模式,如目标状态[Fu等人,2018;Singh等人,2019]、自然语言[MacGlashan等人,2015;Karamcheti等人,2017;Misra等人,2017b;Co-Reyes等人,2018]。2017b;Co-Reyes等人,2019;Shao等人,2020],人类视频[Shao等人,2020;Chen等人,2021c;Liu等人,2018],成对或排名比较[Biyik和Sadigh,2018],互动纠正[Co-Reyes等人,2019;Karamcheti等人,2020] 和物理反馈[Ross等人,2011;Bajcsy等人,2017]。

任务规范的通用模型的一个重要要求是能够转移到新的环境和任务。将任务描述可靠地转化为机器人学习的通用奖励信号仍然是一个开放的问题[Taylor等人,2016]——基础模型很适合这个问题。当应用于任务规范时,基础模型可以通过从大型和广泛的数据集中学习来提供更稳健(§4.8:稳健性)的通用奖励信号——甚至利用上述多种描述模式。任务规范的基础模型的一个具体实例可能是一个模型,它通过在不同的语言和视觉数据集上进行训练,学习从任意(语言、当前观察)对到奖励信号的映射[Bahdanau等人,2019;Fu等人,2019;Chen等人,2021c]。通过从这些广泛的、不同的数据集中学习信息性的先验,这样的模型可能能够泛化到未见过的语言指令和未见过的环境中的观察。总的来说,基础模型巧妙地衔接各种模式和广泛概括的能力使它们对通用的任务规范具有吸引力。

面向任务学习的基础模型除了实现更普遍的任务规范外,基础模型还可以使解决新任务的学习更加有效和可靠。在这种情况下,机器人学的基础模型可能采取行动、观察、奖励和其他相关属性的联合分布的形式。对这个联合分布的不同维度进行条件处理,可以恢复不同的推理问题,每个问题都对应着不同的特征。

— 动态建模:p(未来观测值|行动,过去观测值) [Finn and Levine 2017; Hafner et al. 2019; Wu et al. 2021d]。

—政策学习:p(行动|观察,目标) [Kaelbling 1993; Schaul et al. 2015; Ding et al. 2019]。

—反向强化学习:p(奖励函数|观察值,行动)[Ng和Russell 2000;Ziebart等人,2008;Finn等人,2016a]。

为了对来自不同机器人的原始数据进行训练,对观察结果进行操作的基础模型必须考虑到大量合理的传感器配置和模式。虽然看起来是一个挑战,但这实际上提供了一个机会:跨模式表征可以更加普遍和接地气,利用任意的输入配置,同时利用模式之间的对应关系[Kaiser等人,2017;Li等人,2019b;Lee等人,2020b,c;Alayrac等人,2020;Jaegle等人,2021b]。自我监督提供了一个额外的机会:机器人基础模型的一个合理的训练目标是以自回归的方式预测上述联合分布的不同元素[Janner等人,2021;Chen等人,2021b,§4.1:建模] 。这个目标可以让基础模型挖掘出无标签的数据--只要数据表现出多样化、有意义的行为。§2.3.2:机器人-挑战讨论了进一步收集此类数据的挑战。

在语言和视觉方面,基础模型已经证明有能力从大型的、不同的数据集中学习广泛适用的先验,随后可以适应下游的任务(§2.1:语言,§2.2:视觉)。机器人学的基础模型有可能同样使感知和控制适应新的环境、任务和体现的几率。考虑一下我们的厨房运行实例。为了在一个新的厨房里做饭,机器人需要适应特定的环境——其空间布局、可用的设备等。从人类的离线视频、机器人互动、文本和/或模拟(§2.3.2:机器人-挑战)中学到的先验知识可能会编码厨房的一般方面,例如炉子通常靠墙,必须打开才能产生热量。这样的常识性知识、物理先验和视觉先验可以使适应新环境的样本效率更高。同样,机器人任务学习的基础模型可能能够在其训练数据集中使用大量的烹饪视频,以适应一个普通技能的策略,如“煎蛋”,以适应特定用户从低数量的演示中获得的偏好——允许有效的样本适应。最后,由于它们有可能学习前面描述的跨模式表征,机器人的基础模型可以帮助实现对新的体现的适应。这方面的适应性是使这些模型广泛使用的关键。

2.3.2 挑战和风险。

尽管有这个令人兴奋的愿景,但需要克服多种挑战。为了实现上述的概括性,我们必须收集足够规模和多样性的机器人数据集。此外,我们需要一些机制来确保我们可以在现实世界中安全地部署所学到的行为。

数据需求和挑战为一个通过传感器感知环境状态并采取行动完成任务的机器人学习策略,传统上需要大量的机器人在现实世界中互动的数据集。另一方面,计算机视觉和自然语言处理中的许多学习任务都依赖于可以很容易地从网络上刮取的大型和多样化的离线数据集。在语言和视觉领域基础模型进展的激励下,我们对利用大型离线数据源在机器人领域学习此类模型的可能性感到兴奋。

实现这一目标的途径之一是收集大型数据集进行离线学习,例如使用远程操作[Mandlekar等人2019]、体感教学[Sharma等人2018]或自主方法[Pinto和Gupta 2016;Gupta等人2018;Levine等人2018;Dasari等人2019;Kalashnikov等人2021],这些方法在泛化方面表现出一些有希望的迹象。虽然将机器人数据收集扩大到视觉和语言数据集的规模[Deng等人,2009;Krishna等人,2017;Raffel等人,2019;Gao等人,2020a]仍然是一个开放的挑战,但机器人数据集的规模和质量不断提高,表明它们可以在学习机器人基础模型中发挥重要作用。

鉴于学习控制具有挑战性的闭环性质,收集这种规模与视觉和语言中使用的数据集有可能对机器人学来说是不够的。一个令人兴奋的选择是额外利用外部的、非机器人的数据来源,如人类的视频或现有的视觉和自然语言数据集。这样的数据是多样化的,并且大量存在于网络上[Deng等人,2009;Lee等人,2012;Heilbron等人,2015;Goyal等人,2017a;Damen等人,2018;Gao等人,2020a],如果适当利用,就有可能实现广泛的概括。优雅地解决机器人领域与网络上的视频或语言之间的差距仍然是一个开放的挑战;然而,最近在领域适应方面的进展[Smith等人,2019;Schmeckpeper等人,2020]以及在机器人中使用预训练的视频和语言模型[Lynch和Sermanet,2020;Shao等人,2020;Chen等人,2021c]为缩小这一差距提出了有希望的方向。

最后,模拟提供了丰富的交互式数据的无限来源,机器人可以从中学习,有一系列的传感器模式,如渲染的视觉、点云和模拟的触摸/音频。然而,一个主要的挑战在于弥合模拟和现实世界之间的差距,包括基础物理学和环境与任务的语义分布。最近的工作表明,通过使用广泛的领域随机化,从飞行[Sadeghi和Levine 2017]到富于接触的操纵[Mahler等人2017;OpenAI等人2019]和运动[Peng等人2020;Hwangbo等人。2019]在模拟中学习的技能可以转移到真实的机器人上,并取得了一定的成功,而且可以通过将真实世界扫描到模拟中来模拟真实世界的语义和视觉分布[Chang等人,2017;Kolve等人,2017b;Savva等人,2019;Szot等人,2021;沈等人,2021a]。虽然这些都是缩小模拟到现实差距的有希望的步骤,但有效和普遍的模拟到现实的操纵和运动技能的学习仍然是一个公开的挑战。模拟数据、真实的机器人数据、人类的视频和自然语言数据都可能是学习机器人基础模型的关键。

安全性和稳健性使机器人基础模型的发展更加复杂的是,在现实世界中训练或部署它们时,要确保其安全性和稳健性。我们可以预期这些机器人模型的安全风险将不同于它们的语言对应物,因为具身的代理被授权在收集数据时直接在物理世界中操纵和与周围环境互动。基于学习的系统的一个核心安全挑战是鸡生蛋蛋生鸡的问题,即在收集数据之前需要指定系统的安全约束,之后可能出现需要额外约束的不可预见的不安全行为。例如,代理适应训练分布之外的新厨房需要足够的安全保证,以确保安全的数据收集,这可能会对任务性能产生不利影响或导致代理以新的方式失败。解决这个问题的方法之一是限制环境的复杂性或增加机器人的复杂性,这样就可以通过构造避免不可恢复的状态或不安全的行动。机器人也可以承担自主重置环境的任务,以促进大规模数据收集的不间断学习(或适应)[Eysenbach等人,2017;Gupta等人,2021b]。这将意味着确保厨房里没有任何东西是可以打破的,或者确保并更换代理在试图收集数据时可能打破的物品。

为了解决基础模型对新刺激不能泛化或产生意外行为所带来的风险,未来的潜在方向包括开发代理的因果分析[Déletang等人2021]、新的形式安全评估工具和现实的模拟环境[Corso等人2020;Dreossi等人2017;Julian和Kochenderfer 2019]。最后,推导出基础模型的形式安全保证,例如安全集的Hamilton-Jacobi可达性[Chow等人,2018;Fisac等人,2019;Herbert等人,2021],或者通过开发对人类操作者来说可解释的学习安全边界(§4.11:可解释性),可以帮助减少基础模型对机器人技术带来的风险[Berkenkamp等人,2017]。随着基础模型的研究和实施的进展以及与机器人技术的交叉,这些挑战的解决方案将是至关重要的。

结论虽然机器人基础模型的前景很多——横跨机器人管道的多个层面,从任务规范到任务学习——但挑战也很严峻。在物理世界中收集涵盖不同环境和体现的数据是一个巨大的障碍,而确保这些系统的安全性和稳健性也是同样紧迫的。尽管如此,我们的乐观态度占了上风;在开发模型之前,现在就解决这些挑战为我们提供了机会,以确定如何从正确的来源,以正确的规模收集正确的数据,以建立具有我们所期望的能力的安全可靠的基础模型。

本节的基础是一个多模态的主题。机器人学的基础模型——在所有可能的实例中——已经并将继续受益于人工智能其他子领域的工作,如语言和视觉(§2.1:语言,§2.2:视觉)。然而,当我们考虑纳入这些来自其他领域的扩展时,地平线上还有跨学科的挑战,这些挑战涉及基础模型的其他方面:训练和部署这种实时机器人模型的系统创新(§4.5:系统),稳健的人与机器人互动的界面创新(§2.5:互动),以及当我们更好地掌握这种模型的安全性和稳健性时要纳入的教训(§4.9:AI-安全,§4.8:稳健性)。围绕基础模型建立一个可靠的生态系统和周到的研究实践是实现这些目标的关键。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值