Multi-agent Architecture Search via Agentic Supernet

原创已于 2025-05-04 19:33:50 修改 · 1.1k 阅读

26 ·

CC 4.0 BY-SA版权

文章标签：

#开发语言 #人工智能 #机器学习

于 2025-04-18 01:01:50 首次发布

ABSTRACT

大语言模型（LLM）驱动的多智能体系统通常需要耗费大量人力的手动设计。尽管已有方法可自动化设计智能体工作流(the design of agentic workflows)，但这些方法通常追求单一、复杂且“一刀切”的静态系统，却无法根据每个查询的难度与领域动态分配推理资源。

为解决这一挑战，转而优化代理超网(the agentic supernet)——一种概率化、连续分布的智能体架构集合。

1 introduction

略

2 related words

略

3. Methodology

图2展示了方法的总体工作流程，MaAS以多样且难度不一的查询作为输入并通过控制器（controller）从代理超网（the agentic supernet）中采样子网络（subnetwork）。
系统执行后，MaAS接收环境反馈并联合优化超网的参数化分布（supernet’s parameterized distribution）与智能体算子（agentic operators）。

3.1. Preliminary

搜索空间定义（Search Space.）首先定义MaAS搜索空间的基本单元。

Definition 3.1 (Agentic Operator O).

定义3.1（智能体算子）

Agentic Operator O是通过多轮LLM调用与工具使用构成的复合过程：

其中 $\mathcal{M}$ 和 $\mathcal{P}$ 表示LLM骨干网络（LLM backbones）与提示集合（prompts）， $\mathcal{T}$ 表示工具集合， $m/n$ 分别为调用的智能体数量与工具数量。

请注意，算子O已经是多个LLM调用+工具+prompt了，通常O可以是COT，FEW-SHOT，RAG，甚至MUL-AGENT。但我理解，这里的O只是流程中的一个任务，只是为了完成这个任务可能要多次调用LLM并且使用工具。记住这点才能和后面的区分开。

可用算子集合记为
典型算子示例
Most existing workflows can be viewed as special cases:
• CoT (Chain-of-Thought): $O_{\text{CoT}} = \{M_1, \emptyset, \emptyset\}$ （单智能体零工具）
• Self-RAG: $O_{\text{RAG}} = \{M_1, P_{\text{retrieval}}, \emptyset\}$ （单智能体检索增强）
• Multi-agent Debate: $O_{\text{Debate}} = \{M_1, M_2, \ldots, M_k, \emptyset\}$ （多智能体辩论）

多智能体系统（multi-agent system）G 定义为：

$G = \{V, E\}, \quad V \subset O, \quad E \in V \times V$
• $V$ ：系统中选用的算子集合（ $V \subset O$ ）
• $E$ ：算子间的连接关系（ $E \subseteq V \times V$ ）
• 约束条件： $G$ 必须为有向无环图（DAG）

Definition 3.2 (Agentic Supernet A).

定义3.2（代理超网）
代理超网(agentic supernet)定义为多层算子配置的概率分布：

其中 $\pi_\ell(O)$ 表示在的条件下第 $\ell$ 层选择算子 $O$ 的条件概率。

我认为A是为了计算而定义，前面的G是变量实体。

超网的多层配置联合分布 p(G)

$V_\ell$ 表示第 $\ell$ 层激活的算子集合。为指示函数，表示 $O$ 是否在第 $\ell$ 层被激活

Vl的计算见公式9

Problem Formulation. max E

目标函数

给定包含多个查询q及其对应最优解a的基准数据集（benchmark）D，MaAS的目标不是像先前工作那样识别单一最优智能体系统（Zhang et al., 2024c; Zhuge et al., 2024），而是优化以下条件概率分布：

其中：
• $U(G;q,a)$ ：基于Oracle评估的性能效用（如准确率、推理正确性）
• $C(G;q)$ ：资源消耗成本（如token数、LLM调用次数）
• $\lambda$ ：成本-性能权衡超参数

是生成查询依赖的代理架构的分布，在这里相当于是max E（期望）的条件。

3.2. Agentic Architecture Sampling

工作流性能评估

MaAS的核心在于为每个用户查询定制个性化的多智能体系统——其复杂度可能因查询难度和领域差异而变化，目标是提供满意的解决方案：

其中 $Q_\phi$ 表示控制器网络（controller network），输入查询 $q$ 、参数化分布 $\pi$ 和可用算子集合 $O$ ，输出采样的智能体架构 $G$ 。 $Q_\phi$ 由参数 $\phi$ 控制， $e(\cdot \mid \cdot)$ 表示通过执行 $G$ 生成答案的过程。

注意，公式(6)因为使用了最大化似然函数，所以公式6的值越大，则结果a的效果越好。

这里有个问题，e(a|G)似然函数，表示的是在G下生成结果a的质量（如准确率、通过率），不是概率。

这个公式应该是积分的运用，e(a|G)Q(G|q,π,O)dG 相当于求e(a|q,π,O)，应该是用了微积分的数学知识。

所以这是个关键公式，为了后续反向传播更新参数φ！

控制器网络实现

我们将 $Q_\phi$ 实现为：

这个公式计算的是所有路径的可能性！！（因为之前就说了V_l是算子集合而不是算子！！）

公式展开如下所示：

其中 $V_h$ 表示第 $h$ 层选择的算子（selected operators）。 $V_\ell$ 的选择条件依赖于查询 $q$ 和前序层的算子（the operators from the previous layers.）。

为什么要建立这样一个公式，有什么用？

然而，并非所有查询都需要完整执行 $L$ 层——如第1节所述，许多问题可通过单次零样本输入解决，导致 $L$ 层冗余。为此，我们引入提前退出算子 $O_{\text{exit}}$

early-exit operator Oexit

其中 $\ell_{\text{exit}}$ 表示 $O_{\text{exit}}$ 出现的层数， $\delta(\cdot)$ 为克罗内克函数（Kronecker delta function）。

这张图的概率打错了，应该是未选0.7，选择0.3，这个计算只在第三层激活。
我认为，这个公式其实就是想表示文字描述的Oexit可以使workflow停止而已。但是他选择了使用数学表达式描述。

通过MoE（Mixture-of-Expert）风格网络实现采样过程 $\pi_\phi$ ：

πl计算

其中 $S^\downarrow = \text{sort}(S, \text{desc})$ ， $S \in \mathbb{R}^{|O|} = [S_1, \ldots, S_{|O|}]$ 表示所有可行算子的激活分数（基于查询 $q$ ）。阈值 $\text{thres}$ 控制算子激活数量——系统按得分从高到低顺序激活操作符，直至累计得分超过阈值。此机制确保每层选择的操作符数量与任务复杂度动态适配，使MaAS能够基于任务需求分配资源。