使用视觉语言模型进行多智体规划

最新推荐文章于 2024-10-18 00:00:00 发布

硅谷秋水

最新推荐文章于 2024-10-18 00:00:00 发布

阅读量537

点赞数 7

分类专栏：智能体大模型文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/yorkhunter/article/details/141203652

版权

大模型同时被 2 个专栏收录

465 篇文章 7 订阅

订阅专栏

智能体

222 篇文章 0 订阅

订阅专栏

24年8月来自意大利几所大学的论文“Multi-agent Planning using Visual Language Models”。

大语言模型 (LLM) 和视觉语言模型 (VLM) 因其在各个领域和任务中提高性能和应用而受到越来越多的关注。然而，LLM 和 VLM 可能会产生错误的结果，尤其是需要深入了解问题域时。例如，当需要同时进行规划和感知时，这些模型通常会因为难以合并多模态信息而陷入困境。为了解决这个问题，通常使用微调模型，并在表征环境的专门数据结构上进行训练。这种方法的有效性有限，因为它会使处理环境过于复杂。本文提出一种用于具体任务规划的多智体架构，它不需要特定的数据结构作为输入。相反，它使用环境的单一图像，利用常识来处理自由域。还有一种全自动评估程序 PG2S，旨在更好地评估规划的质量。

基础模型 (FM) 是机器学习模型，它们在大量（互联网规模）数据上进行训练，并可以进行细化以用于广泛的下游应用 [6]。这些模型的初始示例，即大语言模型 (LLM) [9, 7, 1, 31]，本质上属于自然语言处理 (NLP) 领域。然而，在过去几年中，多模态 LLM 可以处理非文本输入和输出。视觉语言模型 (VLM) [16, 22] 在这一类别中具有特殊相关性，因为它们可以将图像和/或文本查询作为输入，并生成上下文高质量输出。此外，HuggingFace [35] 或 LangChain [5] 等许多工具包的诞生促进了此类模型的爆发和传播，拓宽了它们的应用领域。

事实证明，LLM 可用作零样本 [12] 和少样本 [28] 规划器。这是因为这些模型经过大量数据的训练，因此它们结合了人类的常识 [14]。具有常识的智体通过思维链 [34] 获得复杂的推理能力，并能够正确制定规划以实现预期目标。生成的规划基于查询中包含的信息，即动作、目标和状态都参考了具身智体正在考虑的特定环境。现有的解决方案涉及以结构化方式对环境进行编码，即使用表格或图 [15, 23]，因为一旦转换为某种可流式传输的格式，它们就很容易提示给模型。

然而，随着环境规模的扩大，这类表征也会迅速增长，因此很难将它们合并到语言模型查询提示中。上下文窗口（即模型在生成语言时可以处理的输入文本量）会随提示的增加而变得非常大，并且输出可能会受到多种幻觉的影响 [17]。这在任何 LLM 应用中都是一个问题，尤其是试图规划特定过程以实现某个目标时。因此，重要的是让模型的输入尽可能小，只包含执行所需任务所需的信息。事实上，将目标分解为多个独立智体的几个子目标可以大大改善最终输出，从而比单智体架构表现更好 [33, 30, 20]。

如图所示提出的多智体规划框架：

请添加图片描述

LLM 与用户之间的典型交互包括反复试验过程，通过优化提示来获得所需的结果。环境信息的准确性对于获得正确的规划至关重要。通常，这些信息来自表格或结构化数据。

本文方法基于放宽从一个之前标记过程中结构化信息已知先验知识。在架构中，使用多智体流水线，其仅将环境图像以及要执行的任务作为输入。解决方案采用了三个智体，每个智体代表规划生成过程的一个阶段：语义-知识挖掘智体(SKM)、落地-知识挖掘智体 (GKM) 和规划智体 §。GPT-4V 用于处理图像的智体，而 GPT-4 用于规划智体 [1]。

SKM 智体识别图像中的目标类并建立场景的本体。它还确定目标之间的关系，创建知识图。GKM 智体为这些目标打下基础，提供简短的描述，包括它们与周围目标的关系，从而产生高级但结构合理的场景描述。然后，P 智体使用来自 SKM 和 GKM 两个智体的信息生成规划。这种方法可以最大限度地减少幻觉，并将计划重点放在场景中的相关目标上。

使用视觉语言模型 (VLM)，与单智体方法相比，通过多智体策略获得了更好的结果。在单智体设置中，提示指示 VLM 根据输入图像创建规划。相比之下，多智体设置允许挖掘智体使用详细的环境信息丰富规划智体的知识，如图所示。

请添加图片描述

多智体策略通过在智体之间分配工作量来提高规划质量，每个智体处理特定的任务。这种划分通过在每个智体的上下文窗口内保持更小、更集中的提示来降低幻觉的风险 [17]。将任务拆分为更简单的子任务，该流水线遵循“分而治之”原则，确保响应更准确、更连贯。

选择一个适当的指标来评估所生成规划的质量并非易事。通常，仅使用成功率 (SR) 或以逆路径长度加权的 SR (SRL) 来评估规划的正确性 [28, 10]。但是，这些指标计算起来不是很方便，研究人员通常依靠 Amazon Mechanical Turk 使用人类专家来检查正确性。此外，它们不评估规划的质量：它们说明目标实现了多少次以及规划的长度如何影响结果。

G-PlanET [15] 试图定义一个新的指标来解决这个问题：受到用于语义字幕的指标（如 CIDEr [32] 和 SPLICE [3]）的启发，它提出 KeyActionScore (KAS)。KAS 构建一组从生成规划 Si 每个步骤以及数据集 Si 参考规划中获得的关键动作短语。然后，通过检查 Si 中有多少动作短语被 Si 覆盖，并计算该精度，可以评估规划第 i 步的两个集合的匹配质量。

该指标存在两个主要限制。
首先，它总是假设参考规划是正确的，但这并不总是正确的，因为在 ALFRED 数据集中发现了一些不完全正确的规划示例：例如，目标“将热面包放入冰箱”的参考规划步骤之一是“将刀放入微波炉”的动作，这对于期望的目标来说是极其危险的，并且是全局不正确的。
第二，在 KAS 的定义中，当且仅当一个映射遵循步骤给出的动作顺序，它才被认为正确。这是一个强有力的假设，因为有许多规划中动作顺序对于实现目标来说不是必要的 [19]，所以它会惩罚那些实际上正确的规划。

为此，本文提出一个指标规划目标语义分数 (PG2S) 来解决这个问题。作为示例，一个可用作真值规划和预测规划的参考规划，如表所示。预测的达到目标“穿一双鞋”的规划对于人类评估者来说是正确的。尽管如此，该规划在行动顺序上与真值不同，评估应该能够考虑到这种可能性。使用 KAS 度量，相似度得分等于 0.33；而对于提出的PG2S，获得的相似度得分等于 0.83。

请添加图片描述

PG2S 是一种不依赖用户验证来评估结果的指标。PG2S 不考虑执行规划以实现目标所需操作的部分排序，并且它在语义上是合理的，因为它处理同义词而不会丢失规划的含义。如下算法介绍了用于计算此类评估分数的过程。更详细地说，给定两组规划描述 Pgt 和 Ppred，分别是真值规划和预测规划，旨在量化它们的相似性，使用两个评估级别，即基于句子和基于目标，两者都基于语义值。为了确定两个嵌入是否相似，使用阈值机制。具体来说，采用[25]中提出的方法，其获得根据嵌入向量维数而变化的阈值，并验证它们的使用是否允许仅获得语义上相似的元素。

请添加图片描述

实验旨在测试所提出的架构的有效性。使用单个图像获得的结果，然后将其与最先进方法中的结构化环境感知进行比较。关于家庭场景任务的输出规划是使用 AI2Thor 环境从 ALFRED 数据集中获取的。选择图像和环境，对于每一个，都找到与场景相关的规划，并保存用来比较结果的真值规划。选择几种不同的情况来选择环境场景，以便根据 ALFRED 所选的领域表现出不同的复杂性和应用领域，例如：拾起物体并放置；拾起物体、加热或冷却，然后将它们放置在其他地方；清洁物体并在灯光下检查等等。