基础模型在真实世界机器人的应用:综述

189 篇文章 0 订阅
93 篇文章 0 订阅

24年2月东京大学和Meta+谷歌的论文“Real-World Robot Applications of Foundation Models: A Review”。

基础模型如大语言模型(LLM)和视觉-语言模型(VLM)在现实世界机器人中的实际应用,主要侧重于现有机器人系统中特定组件的更换。该综述涵盖了基础模型中输入输出关系的观点,以及它们在机器人领域的感知、运动规划和控制中的作用。本文最后讨论了未来的挑战和对实际机器人应用的启示。

如图给出本研究的结构。在第2节中,概述基础模型的特点,并介绍常见的下游任务。在第3节中,对基础模型在机器人中的应用研究进行了分类。在第4节中,介绍之前创建机器人基础模型的工作,即所谓的机器人基础模型。在第5节中,概述用于机器人基础模型应用的机器人、任务和环境。

添加图片注释,不超过 140 字(可选)

基础模型有三个主要特征:
上下文学习
规模化定律
同质化

上下文学习只需几个例子就可以完成新任务,而无需再训练或微调。随着数据、计算资源和模型大小的增加,规模化定律允许持续改进性能。同质化允许某些基础模型架构以统一的方式处理不同的模态。

根据语言、视觉、音频和3D表示等模态以及网络输入和输出对基础模型进行分类,其概览图如下所示:机器人利用基础模型的最关键标准是选择使用哪种模态,这里从语言、视觉、音频、3D表示和各种其他形式的角度讨论基础模型的类别及其可以执行的下游任务,在利用每种模态的背景下,从网络输入和输出的角度对基础模型进行了进一步的分类。
添加图片注释,不超过 140 字(可选)
一般来说,机器人的行为由感知、规划和控制组成。在研究中,感知分为两类:低级和高级。此外,将规划和控制分别称为高级规划和低级规划。从用于学习这些组件的数据增强角度,将机器人基础模型的使用分为以下五类:
低级感知
高级感知
高级规划
低级规划
数据增强

这些类别的关系如图所示:对于基础模型,低级感知进行特征提取或场景识别,高级感知进行奖励生成或地图构建,高级规划进行任务规划或代码生成,低级规划进行足迹生成或命令生成,数据增强进行图像增强或指令增强。

在这里插入图片描述

在实践中,通过结合这五种方法来创建各种应用程序。它们主要分为四种类型,如图所示:
(i) 进行低级感知,然后用高级规划来规划行为。
(ii)通过低级感知和高级感知提取奖励和运动约束,并将其用于强化学习和轨迹优化。
(iii)通过低级感知和高级感知生成地图、场景图等,并将其用作任务规划的基础。
(iv)使用数据增强,稳健地进行端到端学习,直接关联从低级感知和控制输入中提取的特征。

添加图片注释,不超过 140 字(可选)

如下表所示,是利用基础模型进行低层次感知、高层次感知、高层规划、低层次规划和数据扩充的一些代表性研究成果。

添加图片注释,不超过 140 字(可选)

除了专注于利用基础模型进行机器人感知和规划的研究外,还有一些工作旨在为机器人本身创建基础模型,这可能被称为机器人基础模型。与LLM或VLM相比,开发机器人基础模型需要对机器人领域进行特殊考虑。例如,为机器人收集不同的数据集比LLM和VLM更昂贵,LLM和VLM可以使用从互联网收集的数据轻松训练,而这一困难阻碍了机器人基础模型的扩展。此外,机器人系统应该处理各种类型的数据,而不仅仅是图像或文本。

如下表所示,是一些为机器人训练的代表性基础模型的例子。这些模型可以分为三类:机器人的预训练视觉表示(PVR)、机器人的视觉-语言模型(VLM)以及端到端控制策略和动力学模型。对于输入和输出栏,Im、S、L、R和A分别表示图像、机器人状态、语言tokens、奖励和动作。对于架构栏,ViT表示视觉的视觉Transformer,T表示Transformer。特别是对于CNNs,将ResNet表示为CNNR。对于训练目标,CE表示离散tokens的分类交叉熵,BC表示动作空间上的行为克隆损失。

添加图片注释,不超过 140 字(可选)

通过应用基础模型的研究,可以知道什么样的机器人、任务和环境适合基于基础模型的机器人。在这项研究中,根据机器人执行的任务对各种研究进行了分类。它们主要分为四类:导航、操纵、移动和通信。通信通常涉及机器人没有被明确使用的场景,并且其描述被保持在最低限度。其概览如图所示。

添加图片注释,不超过 140 字(可选)

最后说一下面临的挑战:

仍有许多方式没有得到充分利用。特别地,尽管存在语言、图像和声音信息的各种例子,但深度信息、力反馈、惯性传感器以及人类、物体和机器人的运动信息并没有得到充分利用。此外,还存在与运动规划的技能粒度相关的问题。机器人技能的层级组织、如何以何种粒度构建技能API以及新技能的添加预计将是未来的重要重点领域。

虽然已经开发出了各种各样的机器人基础模型,但它们的控制周期异常缓慢。这些当前的模型不适合于需要细粒度的力量控制或与人类协作的任务。

可以观察到户外环境中的研究例子很少,许多环境缺乏对现实世界环境的反映,通常包括玩具问题。现成机器人的使用限制了多样性。此外,大多数设置主要基于位置控制,很少有使用扭矩控制或软机器人的例子。预计未来,各研究机构开发的机器人将与基础模型相结合,在更现实的环境中操作的例子也将增加。

基础模型应用的机器人对各种环境和任务的泛化能力是未来的挑战。目前,将基础模型应用于开放世界环境的例子越来越多,如OVMM、OK Robot和GOAT。这一方向代表着向超越传统机器人能力的新型机器人迈进的重大进展。

最后,随着通过语言指令执行的任务变得越来越普遍,对性能的定量评估变得具有挑战性。CALVIN和ARNOLD等基准已经出现,在模拟器中执行语言教学任务进行评估。然而,在现实世界中实现公正的评价并不容易。此外,还需要考虑如何评估与人类的互动。

  • 14
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值