VoxPoser: 采用语言模型实现机器人操作的可组合3D价值图

130 篇文章 0 订阅
118 篇文章 0 订阅

23年7月份来自斯坦福和UIUC的论文“VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models“。

语言是一种压缩的媒介,人类通过它提炼和交流他们对世界的知识和经验。大型语言模型(LLM)已成为捕捉这种抽象方式的一种很有前途的方法,通过投影到语言空间来学习表示世界[1-4]。虽然这些模型被认为将可归纳的知识内化为文本形式,但如何使用这种可归纳的信息使具身智体在现实世界中行动,仍然是一个问题。

研究机器人动作中抽象语言指令(例如“设置表格”)的落地问题[5]。先前的工作利用词汇分析来解析指令[6-8],而最近的语言模型被用于将指令分解为一个文字序列的步骤[9-11]。然而,为了实现与环境的物理交互,现有的方法通常依赖于可以由一个LLM或一个规划者调用、通过手动设计或预训练的运动基元(即技能)集,并且由于缺乏大规模机器人数据,这种对单独技能获取的依赖通常被认为是系统的主要瓶颈。那么问题来了:我们如何才能在机器人的精细动作层面上利用LLM的丰富内部知识,而不需要费力的数据收集或对每个基元进行手动设计?

在应对这一挑战时,首先,LLM直接在文本中输出控制动作是不可行的,文本通常由高维空间的高频控制信号驱动。然而,发现LLM擅长推断以语言为条件的可见性和约束,并且利用代码编写能力,通过编排感知调用(例如CLIP[12]或开放词汇检测器[13-15])和阵列操作(例如NumPy[16]),可以组成落在视觉空间的密集3-D体素图。例如,如果给出“打开最上面的抽屉并小心花瓶”的指令,LLM可以被提示去推断:1)应该抓住最上面的把手,2)把手需要向外拉,3)机器人应该远离花瓶。虽然这些内容以文本形式表示,LLM可以生成Python代码来调用感知API来获得相关目标或部件的空间几何信息(例如,“把手”),然后对3D体素操纵来规定观察空间中相关位置的奖励或成本值(例如,把手的目标位置被分配高值,而花瓶的周围被分配低值)。最后,合成的价值图可以用作运动规划器的目标函数,直接合成实现给定指令的机器人轨迹,而不需要每个任务或LLM额外的训练数据。

提出的方法称为VoxPoser,这是一种从LLM中提取可见性和约束的公式,用于在3D观察空间中组成体素价值图,引导机器人与环境交互。特别地,该方法利用LLM来构成生成机器人轨迹的关键面,而不是试图在数量或可变性有限的机器人数据进行策略训练,以零样本的方式有效地实现开放集指令的泛化。将其集成到基于模型的规划框架中,通过对外部扰动具有鲁棒性的模型预测控制(MPC),演示出执行的闭环。进一步展示VoxPoser如何从有限的在线互动中受益,有效地学习涉及丰富接触互动的动力学模型。

如图是VoxPoser从LLM中提取语言为条件的可见性和约束,通过代码接口并且无需对任何一方进行额外训练,用视觉语言模型(VLM)落地部署于感知空间。组成图称为 3D 价值图,可以通过一组开放的指令和一组开放的目标,为各种日常操作任务进行零样本的轨迹合成。

添加图片注释,不超过 140 字(可选)

如图为VoxPoser概述。给定环境的RGB-D观测数据和语言指令,LLM生成代码,与视觉语言模型(VLM)交互,生成一系列基于机器人观察空间的3D可见性图和约束图(统称为价值图)(a)。然后,组合的价值图用作运动规划器的目标函数,合成机器人操作的轨迹(b)。整个过程不涉及任何额外的训练。

添加图片注释,不超过 140 字(可选)

如图是现实环境中可视化组合的 3D 价值图和部署。最顶行演示“感兴趣的实体”是目标或部件的位置,价值图将其引导至目标位置。底部两行展示了“感兴趣的实体”作为机器人末端执行器的任务。这样最底层的任务涉及两个阶段,这两个阶段也由LLM编排。

添加图片注释,不超过 140 字(可选)

相关工作回顾:

落地实施语言说明。语言落地实施在智体[19-22]和机器人[23,6,24,25,5,7,26]方面都得到了广泛的研究,其中语言可以用作组成目标(goal)规范的工具[5,27-33],用于训练多模态表示的语义锚点[12,34,35],或者用作规划和推理的中间基底[36-38,9,10,39,40]。先前的工作着眼于经典工具,如词汇分析、形式逻辑和图模型来解释语言指令[27,7,6,26]。最近,端到端方法已被成功应用于离线领域[41-43,1],从有语言标注的数据中学习,模型学习[44]、模仿学习[45,46,30,47-54]到强化学习[55-57],已在机器人交互中直接地让语言指令落地。与该工作最密切相关的是Sharma[50],其中监督学习优化端到端成本预测器,将语言指令映射到2D成本图,用于引导运动规划器以无碰撞的方式生成首选轨迹。相比之下,该文依靠预训练的语言模型来获取开放世界知识,并在3D空间中处理更具挑战性的机器人操作。

机器人语言模型。利用预训练的语言模型进行实施应用是一个活跃的研究领域,其中大量工作集中在语言模型进行规划和推理[9-11,58,31,39,59–72,36,73]。为了允许语言模型感知物理环境,可以给出场景的文本描述[39,11,59]或感知API[74],视觉可以在解码过程中使用[67],也可以直接作为多模态语言模型的输入[68,2]。除了感知,为了真正搭建感知-动作闭环,一个具身语言模型还必须知道如何行动,这通常是通过预定义原语(primitives)库来实现的。Liang[74]表明LLM表现出的行为常识可用于低级控制。尽管出现了有希望的迹象,但仍然需要手工设计的运动基元,尽管LLM被证明能够组合序贯策略逻辑,但组合是否可以在空间级别发生仍不清楚。一系列相关工作也探索了在奖励设计[75]、强化学习[76-79]和人类偏好学习[80]的背景下使用LLM进行奖励规范。相反,本文专注于将LLM产生的奖励建立在机器人的3D观察空间中,这对操纵任务最有用。

基于学习的轨迹优化。许多工作已经探索了基于学习的方法进行轨迹优化。虽然文献众多,但可以大致分为学习模型[81-89]和学习成本/回报或约束[90-93,50,94],其中数据通常是从域内交互中收集的。为了能够在野外进行泛化,一系列平行的工作探索了从大规模离线数据[95-97,35,34,44,98,99,54]中学习任务规范,特别是自我车辆为中心的视频[100101],或者利用预训练的基础模型[102-104,33105106]。然后,通过强化学习[10219107]、模仿学习[97,96]或轨迹优化[95,35]所学习的成本函数来生成机器人动作。这项工作利用LLM进行野外成本规范,不需要域内交互数据,并且具有更好的泛化能力。与之前利用基础模型的工作相比,通过实时视觉反馈将成本直接落地在3D观测空间中,这使VoxPoser适用于执行稳健的闭环MPC。

  • 24
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值