S-agents: 在开放环境下自组织智体

24年2月复旦大学论文“S-agents: self-organizing agents in open-ended environment“。

利用大语言模型(LLM),自主智体有了显著的改进,获得了处理各种任务的能力。在开放式环境中,优化协作以提高效率和效力需要灵活调整。尽管如此,目前的研究主要强调固定的、面向任务的工作流程,而忽略了以智体为中心的组织结构。

从人类组织行为中汲取灵感,引入一个自组织智体系统(S-Agents),该系统具有用于动态工作流的“智体树”结构,用于平衡信息优先级的“沙漏型智体架构”,以及允许智体之间异步执行任务的“非阻塞性协作”方法。这种结构可以自主协调一组智体,在没有人为干预的情况下有效应对开放和动态环境的挑战。实验表明,S-Agents能够在Minecraft环境中熟练地执行协作构建任务和资源收集,验证了其有效性。
如图所示是开放环境中的智体组织。智体组织是一组具有一定结构的智体为共同的目标而协作。(1-3)描绘了一组收集散落岩石的药剂;(4-8)示出了一组智体一起建造庇护所。在他们的协作过程中,在没有固定步骤的情况下自主地编排工作流程。

在这里插入图片描述

如图就是一个组织结构比较示意图。(a) 单智体(Wang2023a):与物理环境的直接互动;(b)智体链( Qian2023,Hong2023):智体依次执行指定任务,指挥下一个智体的行动;(c) 智体图(Park2023):去中心化结构,允许所有智体相互指挥;(d)智体树:集中式结构,保留一个智体作为领导智体(根智体ar),其他执行器智体(叶智体al1和al2)执行命令。

在这里插入图片描述

感知模块集成了来自物理环境的反馈和来自智体组的对话记录。1) 物理环境:物理环境p提供了一组不同的数据,包括库存、设备和附近的街区、生物群落、时间、健康和饥饿酒吧,以及3D坐标等。该数据结构与Voyager中使用的数据结构一致(Wang2023a)。2) 智体组:利用语言作为智体组A内的通信接口,仔细记录当前智体发起的交互。每个记录包括时间、发言人、回答者和信息。

在组织环境中,智体同时感知来自智体组A的消息和来自物理环境p的信息。例如,一名领导智体指示al打铁,但al目前正受到僵尸攻击。输入的对偶性,对纯LLM决策提出了挑战,使其难以产生一致和可靠的行为。为了应对这一挑战,本文提出了沙漏智体体系结构,如图(a)。该框架过滤了丰富的信息,提取出一个单一的目标作为瓶颈。随后,它将此目标分解为一个长期规划,并生成一个可执行的动作队列作为输出。

进度监视器利用LLM进行评估,将各种感知信息和先前的规划作为输入,生成当前任务的完成状态(“成功”、“失败”或“正在进行”)及其基本原理。当没有待定的动作时,会进行此评估。如图(b)所示,库存中石头的存在标志着采矿任务的完成。这一决定的理由是已经获得了足够数量的石头。对于协作任务,评估结果应基于智体组内的通信。

如图(c)所示,分层规划器涉及高级目标的两步分解,可以大致分为两个LLM驱动的模块:任务规划器和动作规划器。1) 任务规划器:如图(c)所示,任务规划器遵循思维链(CoT)原则(Wei 2022),使用LLM进行目标分析和长期规划。该阶段还包括选择要执行的即时任务。2) 动作计划器:如图(c)所示,动作规划器接受当前任务作为输入,并利用LLM生成一系列可执行动作,统称为动作队列。这些动作分为两类:直接执行动作,通常包括一个动作、一个目标和一个可选位置(例如,“在[位置]制作[数量][项目]”),以及委派动作,其中任务被分配给另一个智体(例如,指示[玩家]消除[位置]的[数量][暴徒]”)。每个动作都遵循(Wang2023a)方法,参考技能库中最相似的技能,生成JavaScript代码,并在Minecraft环境中执行。队列中的每个操作都将退出队列并按顺序执行,直到队列为空。队列耗尽后,进度监视器收集在执行这些操作期间获得的所有感知信息,评估任务的完成状态。

添加图片注释,不超过 140 字(可选)

如图是合作策略的比较。(a) 涉及一个智体顺序地接力执行一个又一个任务,没有并行化;(b) 是基于回合的,逐回合执行,而(c)是异步的合作。彩色区域表示正在执行的任务,白色区域表示智体空闲。

以前的方法可以分为两种不同的类型。在中继协作中,如图(a)所示,以智体链(Hong 2023)为例,一个智体只有在完成另一个智体后才启动,从而导致顺序进展。这种方法通常会导致智体之间顺序且完全相互依赖的任务执行。基于回合协作(Chen 2023a),如图(b)所示,涉及所有智体的同时操作。随后,它在每一回合之后聚合所有智体的结果,通知下一回合的任务分配。具体来说,在单智体之外,有一个外部for-loop来控制这个回合。虽然这种方法引入了并行性,但它仍然会阻碍每一汇合中最慢的智体,从而限制整体效率,从而引入瓶颈。
为了解决这些限制,本文提出了一种非阻塞性异步协作范式,如图(c)所示,其中每个智体独立运行。一旦他们完成任务,就会直接向根智体报告,接收下一步的指示。从技术上讲,将每个智体建模为一个独立的异步进程,该进程共享用于通信的消息池。

添加图片注释,不超过 140 字(可选)

  • 23
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值