使用视觉语言模型进行多智体规划

24年8月来自意大利几所大学的论文“Multi-agent Planning using Visual Language Models”。

大语言模型 (LLM) 和视觉语言模型 (VLM) 因其在各个领域和任务中提高性能和应用而受到越来越多的关注。然而,LLM 和 VLM 可能会产生错误的结果,尤其是需要深入了解问题域时。例如,当需要同时进行规划和感知时,这些模型通常会因为难以合并多模态信息而陷入困境。为了解决这个问题,通常使用微调模型,并在表征环境的专门数据结构上进行训练。这种方法的有效性有限,因为它会使处理环境过于复杂。本文提出一种用于具体任务规划的多智体架构,它不需要特定的数据结构作为输入。相反,它使用环境的单一图像,利用常识来处理自由域。还有一种全自动评估程序 PG2S,旨在更好地评估规划的质量。

基础模型 (FM) 是机器学习模型,它们在大量(互联网规模)数据上进行训练,并可以进行细化以用于广泛的下游应用 [6]。这些模型的初始示例,即大语言模型 (LLM) [9, 7, 1, 31],本质上属于自然语言处理 (NLP) 领域。然而,在过去几年中,多模态 LLM 可以处理非文本输入和输出。视觉语言模型 (VLM) [16, 22] 在这一类别中具有特殊相关性,因为它们可以将图像和/或文本查询作为输入,并生成上下文高质量输出。此外,HuggingFace [35] 或 LangChain [5] 等许多工具包的诞生促进了此类模型的爆发和传播,拓宽了它们的应用领域。

事实证明,LLM 可用作零样本 [12] 和少样本 [28] 规划器。这是因为这些模型经过大量数据的训练,因此它们结合了人类的常识 [14]。具有常识的智体通过思维链 [34] 获得复杂的推理能力,并能够正确制定规划以实现预期目标。生成的规划基于查询中包含的信息,即动作、目标和状态都参考了具身智体正在考虑的特定环境。现有的解决方案涉及以结构化方式对环境进行编码,即使用表格或图 [15, 23],因为一旦转换为某种可流式传输的格式,它们就很容易提示给模型。

然而,随着环境规模的扩大,这类表征也会迅速增长,因此很难将它们合并到语言模型查询提示中。上下文窗口(即模型在生成语言时可以处理的输入文本量)会随提示的增加而变得非常大,并且输出可能会受到多种幻觉的影响 [17]。这在任何 LLM 应用中都是一个问题,尤其是试图规划特定过程以实现某个目标时。因此,重要的是让模型的输入尽可能小,只包含执行所需任务所需的信息。事实上,将目标分解为多个独立智体的几个子目标可以大大改善最终输出,从而比单智体架构表现更好 [33, 30, 20]。

如图所示提出的多智体规划框架:

请添加图片描述

LLM 与用户之间的典型交互包括反复试验过程,通过优化提示来获得所需的结果。环境信息的准确性对于获得正确的规划至关重要。通常,这些信息来自表格或结构化数据。

本文方法基于放宽从一个之前标记过程中结构化信息已知先验知识。在架构中,使用多智体流水线,其仅将环境图像以及要执行的任务作为输入。解决方案采用了三个智体,每个智体代表规划生成过程的一个阶段:语义-知识挖掘智体(SKM)、落地-知识挖掘智体 (GKM) 和规划智体 §。GPT-4V 用于处理图像的智体,而 GPT-4 用于规划智体 [1]。

SKM 智体识别图像中的目标类并建立场景的本体。它还确定目标之间的关系,创建知识图。GKM 智体为这些目标打下基础,提供简短的描述,包括它们与周围目标的关系,从而产生高级但结构合理的场景描述。然后,P 智体使用来自 SKM 和 GKM 两个智体的信息生成规划。这种方法可以最大限度地减少幻觉,并将计划重点放在场景中的相关目标上。

使用视觉语言模型 (VLM),与单智体方法相比,通过多智体策略获得了更好的结果。在单智体设置中,提示指示 VLM 根据输入图像创建规划。相比之下,多智体设置允许挖掘智体使用详细的环境信息丰富规划智体的知识,如图所示。

请添加图片描述

多智体策略通过在智体之间分配工作量来提高规划质量,每个智体处理特定的任务。这种划分通过在每个智体的上下文窗口内保持更小、更集中的提示来降低幻觉的风险 [17]。将任务拆分为更简单的子任务,该流水线遵循“分而治之”原则,确保响应更准确、更连贯。

选择一个适当的指标来评估所生成规划的质量并非易事。通常,仅使用成功率 (SR) 或以逆路径长度加权的 SR (SRL) 来评估规划的正确性 [28, 10]。但是,这些指标计算起来不是很方便,研究人员通常依靠 Amazon Mechanical Turk 使用人类专家来检查正确性。此外,它们不评估规划的质量:它们说明目标实现了多少次以及规划的长度如何影响结果。

G-PlanET [15] 试图定义一个新的指标来解决这个问题:受到用于语义字幕的指标(如 CIDEr [32] 和 SPLICE [3])的启发,它提出 KeyActionScore (KAS)。KAS 构建一组从生成规划 Si 每个步骤以及数据集 Si 参考规划中获得的关键动作短语。然后,通过检查 Si 中有多少动作短语被 Si 覆盖,并计算该精度,可以评估规划第 i 步的两个集合的匹配质量。

该指标存在两个主要限制。
首先,它总是假设参考规划是正确的,但这并不总是正确的,因为在 ALFRED 数据集中发现了一些不完全正确的规划示例:例如,目标“将热面包放入冰箱”的参考规划步骤之一是“将刀放入微波炉”的动作,这对于期望的目标来说是极其危险的,并且是全局不正确的。
第二,在 KAS 的定义中,当且仅当一个映射遵循步骤给出的动作顺序,它才被认为正确。这是一个强有力的假设,因为有许多规划中动作顺序对于实现目标来说不是必要的 [19],所以它会惩罚那些实际上正确的规划。

为此,本文提出一个指标 规划目标语义分数 (PG2S) 来解决这个问题。作为示例,一个可用作真值规划和预测规划的参考规划,如表所示。预测的达到目标“穿一双鞋”的规划对于人类评估者来说是正确的。尽管如此,该规划在行动顺序上与真值不同,评估应该能够考虑到这种可能性。使用 KAS 度量,相似度得分等于 0.33;而对于 提出的PG2S,获得的相似度得分等于 0.83。

请添加图片描述

PG2S 是一种不依赖用户验证来评估结果的指标。PG2S 不考虑执行规划以实现目标所需操作的部分排序,并且它在语义上是合理的,因为它处理同义词而不会丢失规划的含义。如下算法介绍了用于计算此类评估分数的过程。更详细地说,给定两组规划描述 Pgt 和 Ppred,分别是真值规划和预测规划,旨在量化它们的相似性,使用两个评估级别,即基于句子和基于目标,两者都基于语义值。为了确定两个嵌入是否相似,使用阈值机制。具体来说,采用[25]中提出的方法,其获得根据嵌入向量维数而变化的阈值,并验证它们的使用是否允许仅获得语义上相似的元素。

请添加图片描述

实验旨在测试所提出的架构的有效性。 使用单个图像获得的结果,然后将其与最先进方法中的结构化环境感知进行比较。 关于家庭场景任务的输出规划是使用 AI2Thor 环境从 ALFRED 数据集中获取的。 选择图像和环境,对于每一个,都找到与场景相关的规划,并保存用来比较结果的真值规划。 选择几种不同的情况来选择环境场景,以便根据 ALFRED 所选的领域表现出不同的复杂性和应用领域,例如:拾起物体并放置; 拾起物体、加热或冷却,然后将它们放置在其他地方; 清洁物体并在灯光下检查等等。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值