S-agents: 在开放环境下自组织智体

最新推荐文章于 2024-07-05 16:44:12 发布

硅谷秋水

最新推荐文章于 2024-07-05 16:44:12 发布

阅读量665

点赞数 23

分类专栏：大模型智能体文章标签：语言模型人工智能机器学习自然语言处理

本文链接：https://blog.csdn.net/yorkhunter/article/details/139513623

版权

大模型同时被 2 个专栏收录

306 篇文章 1 订阅

订阅专栏

智能体

82 篇文章 0 订阅

订阅专栏

24年2月复旦大学论文“S-agents: self-organizing agents in open-ended environment“。

利用大语言模型（LLM），自主智体有了显著的改进，获得了处理各种任务的能力。在开放式环境中，优化协作以提高效率和效力需要灵活调整。尽管如此，目前的研究主要强调固定的、面向任务的工作流程，而忽略了以智体为中心的组织结构。

从人类组织行为中汲取灵感，引入一个自组织智体系统（S-Agents），该系统具有用于动态工作流的“智体树”结构，用于平衡信息优先级的“沙漏型智体架构”，以及允许智体之间异步执行任务的“非阻塞性协作”方法。这种结构可以自主协调一组智体，在没有人为干预的情况下有效应对开放和动态环境的挑战。实验表明，S-Agents能够在Minecraft环境中熟练地执行协作构建任务和资源收集，验证了其有效性。
如图所示是开放环境中的智体组织。智体组织是一组具有一定结构的智体为共同的目标而协作。（1-3）描绘了一组收集散落岩石的药剂；（4-8）示出了一组智体一起建造庇护所。在他们的协作过程中，在没有固定步骤的情况下自主地编排工作流程。

在这里插入图片描述

如图就是一个组织结构比较示意图。（a）单智体（Wang2023a）：与物理环境的直接互动；（b）智体链（ Qian2023，Hong2023）：智体依次执行指定任务，指挥下一个智体的行动；（c）智体图（Park2023）：去中心化结构，允许所有智体相互指挥；（d）智体树：集中式结构，保留一个智体作为领导智体（根智体ar），其他执行器智体（叶智体al1和al2）执行命令。

在这里插入图片描述

感知模块集成了来自物理环境的反馈和来自智体组的对话记录。1）物理环境：物理环境p提供了一组不同的数据，包括库存、设备和附近的街区、生物群落、时间、健康和饥饿酒吧，以及3D坐标等。该数据结构与Voyager中使用的数据结构一致（Wang2023a）。2）智体组：利用语言作为智体组A内的通信接口，仔细记录当前智体发起的交互。每个记录包括时间、发言人、回答者和信息。

在组织环境中，智体同时感知来自智体组A的消息和来自物理环境p的信息。例如，一名领导智体指示al打铁，但al目前正受到僵尸攻击。输入的对偶性，对纯LLM决策提出了挑战，使其难以产生一致和可靠的行为。为了应对这一挑战，本文提出了沙漏智体体系结构，如图（a）。该框架过滤了丰富的信息，提取出一个单一的目标作为瓶颈。随后，它将此目标分解为一个长期规划，并生成一个可执行的动作队列作为输出。

进度监视器利用LLM进行评估，将各种感知信息和先前的规划作为输入，生成当前任务的完成状态（“成功”、“失败”或“正在进行”）及其基本原理。当没有待定的动作时，会进行此评估。如图（b）所示，库存中石头的存在标志着采矿任务的完成。这一决定的理由是已经获得了足够数量的石头。对于协作任务，评估结果应基于智体组内的通信。

如图（c）所示，分层规划器涉及高级目标的两步分解，可以大致分为两个LLM驱动的模块：任务规划器和动作规划器。1）任务规划器：如图（c）所示，任务规划器遵循思维链（CoT）原则（Wei 2022），使用LLM进行目标分析和长期规划。该阶段还包括选择要执行的即时任务。2）动作计划器：如图（c）所示，动作规划器接受当前任务作为输入，并利用LLM生成一系列可执行动作，统称为动作队列。这些动作分为两类：直接执行动作，通常包括一个动作、一个目标和一个可选位置（例如，“在[位置]制作[数量][项目]”），以及委派动作，其中任务被分配给另一个智体（例如，指示[玩家]消除[位置]的[数量][暴徒]”）。每个动作都遵循（Wang2023a）方法，参考技能库中最相似的技能，生成JavaScript代码，并在Minecraft环境中执行。队列中的每个操作都将退出队列并按顺序执行，直到队列为空。队列耗尽后，进度监视器收集在执行这些操作期间获得的所有感知信息，评估任务的完成状态。

添加图片注释，不超过 140 字（可选）

如图是合作策略的比较。（a）涉及一个智体顺序地接力执行一个又一个任务，没有并行化；（b）是基于回合的，逐回合执行，而（c）是异步的合作。彩色区域表示正在执行的任务，白色区域表示智体空闲。

以前的方法可以分为两种不同的类型。在中继协作中，如图（a）所示，以智体链（Hong 2023）为例，一个智体只有在完成另一个智体后才启动，从而导致顺序进展。这种方法通常会导致智体之间顺序且完全相互依赖的任务执行。基于回合协作（Chen 2023a），如图（b）所示，涉及所有智体的同时操作。随后，它在每一回合之后聚合所有智体的结果，通知下一回合的任务分配。具体来说，在单智体之外，有一个外部for-loop来控制这个回合。虽然这种方法引入了并行性，但它仍然会阻碍每一汇合中最慢的智体，从而限制整体效率，从而引入瓶颈。
为了解决这些限制，本文提出了一种非阻塞性异步协作范式，如图（c）所示，其中每个智体独立运行。一旦他们完成任务，就会直接向根智体报告，接收下一步的指示。从技术上讲，将每个智体建模为一个独立的异步进程，该进程共享用于通信的消息池。

添加图片注释，不超过 140 字（可选）