RoboCodeX：机器人行为合成的多模态代码生成

人工智能培训咨询叶梓

于 2024-08-16 20:30:00 发布

阅读量855

点赞数 20

文章标签：机器人搜索引擎人工智能自然语言处理大模型多模态 AI

本文链接：https://blog.csdn.net/yetzi1975/article/details/141260424

版权

人工智能咨询培训老师叶梓转载标明出处

尽管在应用大模型进行高层次理解方面取得了成功，但将这些概念性理解转化为详细的机器人动作，同时在不同场景中实现泛化，仍然是一个挑战。本文提出了一个名为RoboCodeX的树状结构多模态代码生成框架，旨在通过代码生成引入跨不同机器人平台的泛化能力。RoboCodeX框架由香港大学、上海AI实验室和其他几个学术机构共同开发。该框架的核心是将高级人类指令分解为以对象为中心的多个操作单元，每个单元都包含物理偏好和安全约束。通过这种方式，RoboCodeX能够将观察到的环境和指令的高层次语义理解转化为适合机器人机械特性的定制行为。

RoboCodeX的示意图
这是一个具有树状推理能力的大型视觉语言模型，用于机器人代码生成。它将高层级的人类指令分解为多个以对象为中心的子任务，并进一步通过预测物理约束、优先级排名和目标位置提案来扩展它们

方法

研究者面对的挑战是如何将长期的高级人类指令转化为机器人的具体行动。他们将这个问题设定为一个高层级的自由形式指令，例如 "清理桌子"。观察指令由三个不同视角的深度相机提供的RGBD数据组成，这有助于解决单一视角可能引起的遮挡问题，并提供全面的三维空间信息。研究者的目标是生成一系列运动轨迹，这些轨迹能够由操作空间控制器执行，以完成指定的全局任务。

3.2. Multi-modal Tree-of-thought Code Generation

利用 RoboCodeX 模型通过一种新颖的多模态思维树结构来生成代码，以合成机器人的行为的过程开始于捕获来自三个不同视角的 RGB 帧，这些帧被融合成一个统一的三维空间表示形式，例如截断的有符号距离场（TSDF），它编码了精确的环境结构。

同时，三个视角的 RGB 图像与自然语言指令一起输入到 RoboCodeX 模型中。该模型采用了以语义解析、上下文定位和目标导向的分割为中心的思维树架构。这种视觉推理直接将视觉特征与对物体交互偏好和物理约束的理解联系起来。整体任务被分解为顺序的对象中心单元，每个单元都由子任务的语言描述和操作偏好定义。

对于每个对象中心的单元，从 RGB 流中得到的地面化的二维位置与来自点云的三维盒子匹配，基于重叠和方向一致性。这个过程使得研究者能够提取出任务相关对象的准确三维点云。随后，基于子任务的语言指令，可以制定出对象中心的运动轨迹生成问题。

聚合的对象特定的感知推断、物理洞察和操作参数被系统地编译成结构化的可执行动作代码。每个单元被视为父节点，并进一步扩展到部件级别的可承受性预测、抓取姿态提案预测、物体物理属性预测，以及轨迹规划。特别是，轨迹规划通过整合运动规划算法和机器人操作系统（ROS）的操控模块，最终输出动态可行的机器人轨迹，并确保避免碰撞和奇异性。

图2展示了RoboCodeX在合成机器人行为方面的一个实例。这个例子中的任务是“将香蕉放入抽屉”。为了完成这个任务，研究者将整个过程分解为以抽屉为中心的单元（Drawer-centric Unit）和以香蕉为中心的单元（Banana-centric Unit）。

在以抽屉为中心的单元中，机器人需要理解它必须将其夹持器与抽屉的棱柱形关节轴对齐，这是考虑到抽屉的物理限制和轨迹优化后的最佳移动位置。这涉及到对抽屉的物理特性和运动学特性的深入理解，以便生成符合物理世界规则的运动轨迹。

相反，在以香蕉为中心的单元中，机器人则需要将其夹持器与桌面法线对齐，并靠近香蕉的中心，以便抓取香蕉。这要求机器人能够识别和理解物体的空间位置和方向，以便准确地执行抓取动作。

伴随的代码生成部分将这些多模态的考虑因素转化为可执行的指令。对于抽屉，代码包括确定手柄的位置，按照抽屉关节轴的方向执行抓取和拉动动作，然后释放手柄。而对于香蕉，代码序列则涉及对齐夹持器、抓取香蕉、将其移动到抽屉处，并在目的地释放香蕉。

在数据集准备部分，研究者们着重于创建一个多模态推理数据集，用以训练和提升模型的物理机器人偏好和行为代码推理能力。他们采用了一种程序化的数据生成框架，首先从HM3D数据集中随机采样家庭场景，这些场景提供了卧室、客厅和厨房等不同的室内环境。然后，研究者们在这些场景中适当位置插入额外的对象，包括独立对象如球、玩具和水果，以及可以容纳其他对象的容器对象，如碗、盘子和杯子。这些对象是从Google Scan Dataset、YCB Dataset、OmniObject3D Dataset和AKB-48数据集中采样得到的。通过随机选择对象类别和数量，并根据这些配置填充场景，得到了复杂的场景配置。接着，利用GPT-4语言模型生成与这些场景配置相适应的自然语言任务描述，指定了如对象操控和重新排列等目标。最后，对于每个生成的任务，GPT-4根据任务描述和额外的参数化输入生成相应的编程代码，这些代码经过GPT-3.5评估并筛选出无语法错误的可执行程序，供机器人在模拟环境中执行。

在视觉语言模型设计部分，研究者们采用了BLIP2的基础架构，该架构由视觉变换器、Q-Former和语言模型组成。为了处理复杂任务的代码生成，这些任务往往需要较长的API文档提示作为输入，研究者们利用Q-Former来桥接和压缩视觉模态的标记数量。视觉变换器将视觉元素编码为丰富的表示标记，而Q-Former则将这些视觉嵌入压缩为更紧凑的序列标记，以减少序列长度并节省GPU内存。此外，为了从图像中获取层次化特征，研究者们设计了一种有效的视觉适配器，该适配器通过在视觉变换器的不同阶段聚合特征来实现。这个适配器是一个通道注意力网络，它首先通过线性层降低通道维度，然后使用SILU激活函数选择特征，并最后通过另一个线性层恢复原始通道维度。最终，聚合的特征标记与其它视觉标记结合，作为后续模块的输入。这种设计使得模型能够更好地理解和处理视觉信息，为生成精确的机器人行为代码提供了基础。

实验

研究者们设计了一系列测试来衡量其在不同操作任务上的表现。这些任务包括拿起与放置任务，其中涉及了42种不同类别的物体，这些物体来自YCB和Google Scanned对象数据集。在抽屉和门的操作任务中，研究者们选择了PartNet-Mobility数据集中的5种典型橱柜，以测试机器人进行开闭抽屉和门的能力。此外，还有将物体放入抽屉的任务，这要求机器人能够与抽屉进行有序的交互。最后，多阶段任务测试了机器人完成一系列需要按顺序执行的子任务的能力，例如将所有水果放入抽屉中。

实验的基线模型包括了多种多模态模型和大型语言模型，例如GPT-4V、GPT3.5和GPT-4，这些模型都配备了能够处理开放词汇表的对象检测模型。通过这些实验，研究者们发现RoboCodeX在拿起与放置任务上的表现优于GPT-4V，特别是在处理那些GPT-4V难以识别的物体时。

在具身导航任务的评估中，研究者们使用了HM3D和HSSD数据集来测试RoboCodeX的性能。这些任务要求机器人利用视觉和语言指令来导航至目标物体。评估的指标包括成功率和成功率加权路径长度（SPL），这两个指标能够全面地反映机器人导航策略的有效性。RoboCodeX采用了L3MVN框架，这是一个利用大型语言模型来决定探索方向的框架。实验结果显示，与基线方法相比，RoboCodeX在视觉语言对象导航任务上取得了更好的性能，这表明了其在视觉推理方面的强大能力。

在具身导航任务上的性能展示，报告了成功率和成功率加权路径长度（SPL）作为评估指标

在对RoboCodeX进行一般视觉问答（VQA）能力的评估中，研究者采用了两个知名的基准测试：LLaVA-Bench和MM-Vet。LLaVA-Bench是一个被广泛使用的评估多模态对话能力的基准测试，而MM-Vet则是专注于评估解决复杂多模态任务的能力。通过这些测试，RoboCodeX展现了其出色的理解和推理能力，其表现与当前领先的13亿参数多模态模型LLaVA-1.5-13B相当，值得注意的是，RoboCodeX并未针对这些特定的机器人任务进行微调，这一点突显了其泛化能力。

在通用多模态推理上的性能，报告了在LLaVA-Bench和MM-Vet两个评估基准上的结果

为了验证RoboCodeX在现实世界场景中的泛化能力，研究者在Franka Emika Panda机器人臂和UR5机器人臂上进行了实验。这些实验包括多阶段的拿起与放置任务，以及将物体放入抽屉的任务。实验结果令人鼓舞，RoboCodeX通过简单地修改机器人的配置文件，就能够适应不同的机器人平台。无论是在Franka Emika Panda机器人臂上进行精细的操作，还是在UR5机器人臂上进行更为粗犷的搬运任务，RoboCodeX都表现出了良好的适应性和高度的灵活性，无需针对特定平台进行任务特定的微调。

图片展示了在真实世界中，RoboCodeX在不同机器人平台（Franka Emika Panda机器人臂和UR5机器人臂）上无需特定微调即可适应的能力

在消融研究部分，研究者深入探讨了RoboCodeX框架中各个关键组件的贡献，以理解它们对于整体性能的重要性。首先，他们评估了偏好模型，这个模型能够推断出对于稳健操作至关重要的偏好。通过比较使用偏好模型和直接使用由Anygrasp预测的最高分抓取姿态的效果，研究者发现偏好模型显著提高了操作的稳定性，并与后续的规划过程更加吻合。