Multi-agent Architecture Search via Agentic Supernet

ABSTRACT

大语言模型(LLM)驱动的多智能体系统通常需要耗费大量人力的手动设计。尽管已有方法可自动化设计智能体工作流(the design of agentic workflows),但这些方法通常追求单一、复杂且“一刀切”的静态系统,却无法根据每个查询的难度与领域动态分配推理资源。

为解决这一挑战,转而优化​​代理超网​​(the ​​agentic supernet)——一种概率化、连续分布的智能体架构集合。

1 introduction

2 related words

3. Methodology

图2展示了方法的总体工作流程​,MaAS以多样且难度不一的查询作为输入并通过控制器(controller)从代理超网(the agentic supernet)中采样子网络(subnetwork)。
系统执行后,MaAS接收环境反馈并联合优化超网的参数化分布(supernet’s parameterized distribution)与智能体算子(agentic operators)。

3.1. Preliminary

搜索空间定义(Search Space.)首先定义MaAS搜索空间的基本单元​。

​Definition 3.1 (Agentic Operator O).​


​定义3.1(智能体算子)​

Agentic Operator O是通过多轮LLM调用与工具使用构成的复合过程:


其中$\mathcal{M}$$\mathcal{P}$表示LLM骨干网络(LLM backbones)与提示集合(prompts),$\mathcal{T}$表示工具集合,$m/n$分别为调用的智能体数量与工具数量。

请注意,算子O已经是多个LLM调用+工具+prompt了,通常O可以是COT,FEW-SHOT,RAG,甚至MUL-AGENT。但我理解,这里的O只是流程中的一个任务,只是为了完成这个任务可能要多次调用LLM并且使用工具。记住这点才能和后面的区分开。

可用算子集合记为
典型算子示例 
Most existing workflows can be viewed as special cases:  
CoT (Chain-of-Thought): $O_{\text{CoT}} = \{M_1, \emptyset, \emptyset\}$(单智能体零工具)  
Self-RAG: $O_{\text{RAG}} = \{M_1, P_{\text{retrieval}}, \emptyset\}$(单智能体检索增强)  
Multi-agent Debate: $O_{\text{Debate}} = \{M_1, M_2, \ldots, M_k, \emptyset\}$(多智能体辩论)  


多智能体系统(multi-agent system)G 定义为:

G = \{V, E\}, \quad V \subset O, \quad E \in V \times V 
$V$:系统中选用的算子集合($V \subset O$)  
$E$:算子间的连接关系($E \subseteq V \times V$)  
约束条件$G$必须为有向无环图(DAG)  

Definition 3.2 (Agentic Supernet A).

 
定义3.2(代理超网)
代理超网(agentic supernet)定义为多层算子配置的概率分布:  


其中$\pi_\ell(O)$表示在的条件下第$\ell$层选择算子$O$的条件概率

我认为A是为了计算而定义,前面的G是变量实体。

超网的多层配置联合分布 p(G)


$V_\ell$表示第$\ell$层激活的算子集合为指示函数,表示$O$是否在第$\ell$层被激活  

Vl的计算见公式9

Problem Formulation. max E

​目标函数​

给定包含多个查询q及其对应最优解a的基准数据集(benchmark)D,MaAS的目标不是像先前工作那样识别单一最优智能体系统(Zhang et al., 2024c; Zhuge et al., 2024),而是优化以下条件概率分布:

其中:  
$U(G;q,a)$:基于Oracle评估的性能效用(如准确率、推理正确性)  
$C(G;q)$:资源消耗成本(如token数、LLM调用次数)  
$\lambda$:成本-性能权衡超参数  

是生成查询依赖的代理架构的分布,在这里相当于是max E(期望)的条件。

3.2. Agentic Architecture Sampling

工作流性能评估

MaAS的核心在于为每个用户查询定制个性化的多智能体系统——其复杂度可能因查询难度和领域差异而变化,目标是提供满意的解决方案:


其中$Q_\phi$表示控制器网络(controller network),输入查询$q$、参数化分布$\pi$和可用算子集合$O$,输出采样的智能体架构$G$$Q_\phi$由参数$\phi$控制,$e(\cdot \mid \cdot)$表示通过执行$G$生成答案的过程。

注意,公式(6)因为使用了最大化似然函数,所以公式6的值越大,则结果a的效果越好。

这里有个问题,e(a|G)似然函数,表示的是在G下生成结果a的质量(如准确率、通过率),不是概率。

这个公式应该是积分的运用,e(a|G)Q(G|q,π,O)dG 相当于 求e(a|q,π,O),应该是用了微积分的数学知识。

所以这是个关键公式,为了后续反向传播更新参数φ!

控制器网络实现

我们将$Q_\phi$实现为:  

这个公式计算的是所有路径的可能性!!(因为之前就说了V_l是算子集合而不是算子!!)

公式展开如下所示:


其中$V_h$表示第$h$层选择的算子(selected operators)。$V_\ell$的选择条件依赖于查询$q$和前序层的算子(the operators from the previous layers.)。

为什么要建立这样一个公式,有什么用?

然而,并非所有查询都需要完整执行$L$层——如第1节所述,许多问题可通过单次零样本输入解决,导致$L$层冗余。为此,我们引入提前退出算子$O_{\text{exit}}$

early-exit operator  Oexit



其中$\ell_{\text{exit}}$表示$O_{\text{exit}}$出现的层数,$\delta(\cdot)$为克罗内克函数(Kronecker delta function)。

这张图的概率打错了,应该是未选0.7,选择0.3,这个计算只在第三层激活。
我认为,这个公式其实就是想表示文字描述的Oexit可以使workflow停止而已。但是他选择了使用数学表达式描述。

通过MoE(Mixture-of-Expert)风格网络实现采样过程$\pi_\phi$:  

πl计算



其中$S^\downarrow = \text{sort}(S, \text{desc})$$S \in \mathbb{R}^{|O|} = [S_1, \ldots, S_{|O|}]$表示所有可行算子的激活分数(基于查询$q$)。阈值$\text{thres}$控制算子激活数量——系统按得分从高到低顺序激活操作符,直至累计得分超过阈值。此机制确保每层选择的操作符数量与任务复杂度动态适配,使MaAS能够基于任务需求分配资源。

请注意控制器里的π和这里的π_l是整体和局部的关系。(所以更新控制器的π会影响每一层的算子选择,因为控制器就是由每一层的π_l组成的)

翻译问题,图中的操作符就是算子。说白了就是找到前k个可用的算子使得权重大于阈值,并且要求k尽可能小。(剪枝操作)

每个算子的计算公式如下:

算子得分计算

3.3. Cost-constrained Supernet Optimization

 
成本约束超网优化 (优化目标)


我们提出MaAS的优化目标如下:  

其中$C(\cdot)$通过token成本衡量多智能体系统的代价,$\lambda$为权衡参数。

前面已经提到了,作者的目标就是得到更好的结果并且更低的开销,所以这个公式很合理。

式(10)中的$p(a \mid q, \pi, O)$对应式(6),但由于$e(a \mid G)$通常涉及外部工具或基于API的LLM调用(导致不可导),我们采用经验贝叶斯蒙特卡洛方法估计分布$\pi$的梯度:

梯度计算

 

其中$m_k$表示智能体架构的成本感知重要性权重(the cost-aware importance weights of the agentic architecture)。直观上,$\pi$的更新倾向于选择高质量、低token成本的多智能体系统。

请注意,公式中的▽πp(Gk)可能是根据公式4算的,公式是p(G)。

以及请注意,这里的π说白了就是各层算子的概率权重!仔细看它公式就知道,更新的就是权重!

如上公式的▽错写成了abla,注意辨别。

然而,算子的梯度$\nabla_O \mathcal{L}$无法直接计算。由于算子包含黑盒工具使用和自然语言提示(式1),数值梯度更新不可行。

为此,我们提出基于代理的文本梯度近似反向传播:  

文本梯度计算



其中分别表示:  
T_p:通过代理生成的提示修正建议(如"请使用更具体的检索条件")  
T_T:模型温度参数的调整方向(如"降低温度至0.6以提高确定性")  
T_N:操作符节点的结构修改(如"合并重复的检索模块")  

这个文本梯度更新有现成api:textguard。直接调用。

具体实现参见附录B.3的提示模板。通过联合优化核心组件(操作符及其连接关系),MaAS实现了多智能体系统的全自动进化。关键符号总结见表5,完整算法见Algorithm 1。

<think>我们正在讨论multi-turn agentic interaction(多轮代理式交互)。首先,我需要明确这个概念的定义及其技术原理。根据之前的对话历史,用户已经询问了定义和技术原理,因此我需要系统地组织信息。 定义部分: Multi-turn agentic interaction 指的是在多次交互回合中,智能体(agent)能够主动引导对话或任务流程,根据上下文进行决策以实现目标。这种交互强调agent的自主性(agency),即能够理解状态、执行动作并影响环境。 技术原理: 1. 状态管理:维护对话历史和上下文。 2. 决策机制:基于策略(policy)选择动作(如生成回复、调用工具)。 3. 学习与适应:通过强化学习或在线学习优化行为。 现在,我将按照要求组织回答: - 使用中文。 - 数学表达式用$...$(行内)或$$...$$(独立)。 - 生成相关问题。 - 结构清晰。 注意:由于这是一个概念性主题,数学表达式可能较少,但会在必要时使用(如描述决策模型)。</think>### Multi-turn Agentic Interaction 的定义与技术原理 #### **定义** **Multi-turn agentic interaction(多轮代理式交互)** 指智能体(agent)在**多轮对话**中主动引导交互进程,通过连续决策实现目标的过程。其核心是**代理性(agency)**:智能体具备自主决策能力,能根据环境反馈调整策略,而非被动响应用户指令[^1]。例如: - 用户提问后,智能体主动追问细节、拆解子任务或调用工具,形成**任务解决闭环**。 - 交互过程满足马尔可夫决策过程(MDP)模型: $$(S, A, P, R, \gamma)$$ 其中 $S$ 为状态空间(对话历史),$A$ 为动作空间(回复/工具调用),$P$ 为状态转移概率,$R$ 为奖励函数,$\gamma$ 为折扣因子[^2]。 #### **技术原理** 1. **状态管理(State Management)** - 通过**上下文窗口**(如Transformer的注意力机制)存储历史对话 $s_t = \{u_1, a_1, ..., u_t\}$,其中 $u_i$ 为用户输入,$a_i$ 为智能体动作。 - 使用**向量数据库**检索相关记忆,解决长程依赖问题[^3]。 2. **决策机制(Decision Engine)** - **策略函数 $\pi(a|s)$**:基于当前状态 $s_t$ 选择最优动作 $a_t$(如生成回复、调用API)。 - **价值函数 $V(s)$**:预判动作的长期收益,优化策略(参考贝尔曼方程): $$V(s) = \max_{a \in A} \left[ R(s,a) + \gamma \sum_{s'} P(s'|s,a) V(s') \right]$$ 3. **工具协作(Tool Augmentation)** - 智能体调用外部工具(如计算器、搜索引擎)执行子任务,例如: ```python def solve_equation(equation): # 调用符号计算库求解方程 return sympy.solve(equation) ``` - 通过**函数调用(function calling)** 实现工具与LLM的协同[^4]。 4. **学习与优化(Learning Mechanism)** - **强化学习(RL)**:基于用户反馈(如👍/👎)更新策略,最大化累积奖励 $\sum \gamma^t R_t$。 - **在线微调**:利用实时交互数据调整模型参数。 #### **典型应用场景** - **复杂任务分解**:如旅行规划(先查机票→订酒店→生成行程)。 - **持续学习系统**:智能体通过交互迭代优化医疗诊断策略。 - **自动化工作流**:调用API链完成数据分析报告[^5]。 --- ###
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值