ABSTRACT
大语言模型(LLM)驱动的多智能体系统通常需要耗费大量人力的手动设计。尽管已有方法可自动化设计智能体工作流(the design of agentic workflows),但这些方法通常追求单一、复杂且“一刀切”的静态系统,却无法根据每个查询的难度与领域动态分配推理资源。
为解决这一挑战,转而优化代理超网(the agentic supernet)——一种概率化、连续分布的智能体架构集合。
1 introduction
略
2 related words
略
3. Methodology

系统执行后,MaAS接收环境反馈并联合优化超网的参数化分布(supernet’s parameterized distribution)与智能体算子(agentic operators)。
3.1. Preliminary
搜索空间定义(Search Space.)首先定义MaAS搜索空间的基本单元。
Definition 3.1 (Agentic Operator O).
定义3.1(智能体算子)
Agentic Operator O是通过多轮LLM调用与工具使用构成的复合过程:

其中和
表示LLM骨干网络(LLM backbones)与提示集合(prompts),
表示工具集合,
分别为调用的智能体数量与工具数量。
请注意,算子O已经是多个LLM调用+工具+prompt了,通常O可以是COT,FEW-SHOT,RAG,甚至MUL-AGENT。但我理解,这里的O只是流程中的一个任务,只是为了完成这个任务可能要多次调用LLM并且使用工具。记住这点才能和后面的
区分开。
可用算子集合记为![]()
典型算子示例
Most existing workflows can be viewed as special cases:
• CoT (Chain-of-Thought): (单智能体零工具)
• Self-RAG: (单智能体检索增强)
• Multi-agent Debate: (多智能体辩论)
多智能体系统(multi-agent system)G 定义为:
• :系统中选用的算子集合(
)
• :算子间的连接关系(
)
• 约束条件:必须为有向无环图(DAG)
Definition 3.2 (Agentic Supernet A).
定义3.2(代理超网)
代理超网(agentic supernet)定义为多层算子配置的概率分布:
![]()

其中表示在
的条件下第层选择算子
的条件概率。
我认为A是为了计算而定义,前面的G是变量实体。
超网的多层配置联合分布 p(G)

表示第
层激活的算子集合。
为指示函数,表示是否在第
层被激活
Vl的计算见公式9
Problem Formulation. max E
目标函数
给定包含多个查询q及其对应最优解a的基准数据集(benchmark)D,MaAS的目标不是像先前工作那样识别单一最优智能体系统(Zhang et al., 2024c; Zhuge et al., 2024),而是优化以下条件概率分布:

其中:
•:基于Oracle评估的性能效用(如准确率、推理正确性)
• :资源消耗成本(如token数、LLM调用次数)
• :成本-性能权衡超参数
是生成查询依赖的代理架构的分布,在这里相当于是max E(期望)的条件。
3.2. Agentic Architecture Sampling
工作流性能评估
MaAS的核心在于为每个用户查询定制个性化的多智能体系统——其复杂度可能因查询难度和领域差异而变化,目标是提供满意的解决方案:

其中表示控制器网络(controller network),输入查询
、参数化分布
和可用算子集合
,输出采样的智能体架构
。
由参数
控制,
表示通过执行
生成答案的过程。
注意,公式(6)因为使用了最大化似然函数,所以公式6的值越大,则结果a的效果越好。
这里有个问题,e(a|G)似然函数,表示的是在G下生成结果a的质量(如准确率、通过率),不是概率。
这个公式应该是积分的运用,e(a|G)Q(G|q,π,O)dG 相当于 求e(a|q,π,O),应该是用了微积分的数学知识。
所以这是个关键公式,为了后续反向传播更新参数φ!
控制器网络实现
我们将实现为:

这个公式计算的是所有路径的可能性!!(因为之前就说了V_l是算子集合而不是算子!!)
公式展开如下所示:
其中表示第
层选择的算子(selected operators)。
的选择条件依赖于查询
和前序层的算子(the operators from the previous layers.)。
为什么要建立这样一个公式,有什么用?
然而,并非所有查询都需要完整执行
层——如第1节所述,许多问题可通过单次零样本输入解决,导致
层冗余。为此,我们引入提前退出算子
early-exit operator Oexit

其中表示
出现的层数,
为克罗内克函数(Kronecker delta function)。
这张图的概率打错了,应该是未选0.7,选择0.3,这个计算只在第三层激活。
我认为,这个公式其实就是想表示文字描述的Oexit可以使workflow停止而已。但是他选择了使用数学表达式描述。
通过MoE(Mixture-of-Expert)风格网络实现采样过程:
πl计算

其中,
表示所有可行算子的激活分数(基于查询
)。阈值
控制算子激活数量——系统按得分从高到低顺序激活操作符,直至累计得分超过阈值。此机制确保每层选择的操作符数量与任务复杂度动态适配,使MaAS能够基于任务需求分配资源。
请注意控制器里的π和这里的π_l是整体和局部的关系。(所以更新控制器的π会影响每一层的算子选择,因为控制器就是由每一层的π_l组成的)
翻译问题,图中的操作符就是算子。说白了就是找到前k个可用的算子使得权重大于阈值,并且要求k尽可能小。(剪枝操作)
每个算子的计算公式如下:
算子得分计算

3.3. Cost-constrained Supernet Optimization
成本约束超网优化 (优化目标)
我们提出MaAS的优化目标如下:

其中通过token成本衡量多智能体系统的代价,
为权衡参数。
前面已经提到了,作者的目标就是得到更好的结果并且更低的开销,所以这个公式很合理。
式(10)中的对应式(6),但由于
通常涉及外部工具或基于API的LLM调用(导致不可导),我们采用经验贝叶斯蒙特卡洛方法估计分布
的梯度:
梯度计算

其中表示智能体架构的成本感知重要性权重(the cost-aware importance weights of the agentic architecture)。直观上,
的更新倾向于选择高质量、低token成本的多智能体系统。
请注意,公式中的▽πp(Gk)可能是根据公式4算的,公式是p(G)。
以及请注意,这里的π说白了就是各层算子的概率权重!仔细看它公式就知道,更新的就是权重!
如上公式的▽错写成了abla,注意辨别。
然而,算子的梯度无法直接计算。由于算子包含黑盒工具使用和自然语言提示(式1),数值梯度更新不可行。
为此,我们提出基于代理的文本梯度近似反向传播:
文本梯度计算

其中
分别表示:
• :通过代理生成的提示修正建议(如"请使用更具体的检索条件")
• :模型温度参数的调整方向(如"降低温度至0.6以提高确定性")
• :操作符节点的结构修改(如"合并重复的检索模块")

这个文本梯度更新有现成api:textguard。直接调用。
具体实现参见附录B.3的提示模板。通过联合优化核心组件(操作符及其连接关系),MaAS实现了多智能体系统的全自动进化。关键符号总结见表5,完整算法见Algorithm 1。

























697

被折叠的 条评论
为什么被折叠?



