VoxPoser: 采用语言模型实现机器人操作的可组合3D价值图-CSDN博客

本文链接：https://blog.csdn.net/yorkhunter/article/details/140687192

23年7月份来自斯坦福和UIUC的论文“VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models“。

语言是一种压缩的媒介，人类通过它提炼和交流他们对世界的知识和经验。大型语言模型（LLM）已成为捕捉这种抽象方式的一种很有前途的方法，通过投影到语言空间来学习表示世界[1-4]。虽然这些模型被认为将可归纳的知识内化为文本形式，但如何使用这种可归纳的信息使具身智体在现实世界中行动，仍然是一个问题。

研究机器人动作中抽象语言指令（例如“设置表格”）的落地问题[5]。先前的工作利用词汇分析来解析指令[6-8]，而最近的语言模型被用于将指令分解为一个文字序列的步骤[9-11]。然而，为了实现与环境的物理交互，现有的方法通常依赖于可以由一个LLM或一个规划者调用、通过手动设计或预训练的运动基元（即技能）集，并且由于缺乏大规模机器人数据，这种对单独技能获取的依赖通常被认为是系统的主要瓶颈。那么问题来了：我们如何才能在机器人的精细动作层面上利用LLM的丰富内部知识，而不需要费力的数据收集或对每个基元进行手动设计？

在应对这一挑战时，首先，LLM直接在文本中输出控制动作是不可行的，文本通常由高维空间的高频控制信号驱动。然而，发现LLM擅长推断以语言为条件的可见性和约束，并且利用代码编写能力，通过编排感知调用（例如CLIP[12]或开放词汇检测器[13-15]）和阵列操作（例如NumPy[16]），可以组成落在视觉空间的密集3-D体素图。例如，如果给出“打开最上面的抽屉并小心花瓶”的指令，LLM可以被提示去推断：1）应该抓住最上面的把手，2）把手需要向外拉，3）机器人应该远离花瓶。虽然这些内容以文本形式表示，LLM可以生成Python代码来调用感知API来获得相关目标或部件的空间几何信息（例如，“把手”），然后对3D体素操纵来规定观察空间中相关位置的奖励或成本值（例如，把手的目标位置被分配高值，而花瓶的周围被分配低值）。最后，合成的价值图可以用作运动规划器的目标函数，直接合成实现给定指令的机器人轨迹，而不需要每个任务或LLM额外的训练数据。

提出的方法称为VoxPoser，这是一种从LLM中提取可见性和约束的公式，用于在3D观察空间中组成体素价值图，引导机器人与环境交互。特别地，该方法利用LLM来构成生成机器人轨迹的关键面，而不是试图在数量或可变性有限的机器人数据进行策略训练，以零样本的方式有效地实现开放集指令的泛化。将其集成到基于模型的规划框架中，通过对外部扰动具有鲁棒性的模型预测控制（MPC），演示出执行的闭环。进一步展示VoxPoser如何从有限的在线互动中受益，有效地学习涉及丰富接触互动的动力学模型。

如图是VoxPoser从LLM中提取语言为条件的可见性和约束，通过代码接口并且无需对任何一方进行额外训练，用视觉语言模型（VLM）落地部署于感知空间。组成图称为 3D 价值图，可以通过一组开放的指令和一组开放的目标，为各种日常操作任务进行零样本的轨迹合成。

添加图片注释，不超过 140 字（可选）