协作式多智能体系统中的泛化-CSDN博客

本文链接：https://blog.csdn.net/weixin_74271339/article/details/143304887

协作式多智能体系统中的泛化

——协作式多智能体系统的组合泛化的理论基础

$MM D P$ （Multi-Agent Markov Decision Process，多智能体马尔可夫决策过程）是一种用于描述多智能体系统中的决策问题的数学模型。与传统的单智能体马尔可夫决策过程（MDP）相比，MMDP涉及多个智能体在共享环境中相互作用。以下是MMDP的几个关键特点：

状态空间（State Space）：MMDP的状态空间通常由所有智能体的状态组成，即 $S_1 \times S_2 \times \cdots \times S_n$ ，其中 $S_i$ 是智能体 $i$ 的状态空间。
动作空间（Action Space）：每个智能体都有自己的动作空间，整体的动作空间是所有智能体动作的组合，即 $A_1 \times A_2 \times \cdots \times A_n$ 。
转移概率（Transition Probability）：MMDP的转移概率描述在给定当前状态和所有智能体的动作下，系统转移到下一个状态的概率。转移概率通常表示为 $P (s^{'} ∣ s, a)$ ，其中 $s$ 是当前状态， $a$ 是所有智能体的动作组合， $s^{'}$ 是下一个状态。
奖励函数（Reward Function）：MMDP中的奖励函数可以是局部的（每个智能体都有自己的奖励）或全局的（所有智能体共享一个奖励）。奖励函数通常表示为 $R (s, a)$ 。
策略（Policy）：每个智能体都有自己的策略 $\pi_i$ ，用于决定在给定状态下选择哪个动作。

MMDP适用于许多实际问题，比如多机器人协作、分布式控制系统、竞争和合作的环境等。在这些场景中，智能体需要考虑其他智能体的行为，以优化自身的决策和整体系统的性能。

多智能体系统的组合泛化难以实现的原因：

1、智能体的功能可以有无穷种。比如，机器人关节的最大扭矩是连续变化的，在理论上可以有无穷多的可能值。
2、给定团队规模，可能的团队数量（与智能体能力相比）的组合爆炸。
3、能力需要以环境动态为基础，随着团队规模的增加，环境的动态变得越来越困难。
4、团队规模可能因任务而异。
5、智能体需要在隐藏的、可能不稳定的环境中推断队友的能力。

多智能强化学习

可将协作式多智能体任务视为一个 $Dec - POM D P$ （Decentralized Partially Observable Markov Decision Process，去中心化的部分可观测马尔可夫决策过程）。定义 $G =< S, U, P, R, Z, O, n, ρ, γ > .$ 其中， $S$ 是环境的状态空间， $ρ$ 是初始状态分布。在每个时间点 $t$ ，每个智能体 $\in A ≡ \{1, ..., n\}$ 选择一个动作 $u_i \in U$ ，形成联合动作 $\in U ≡ U^n$ 。 $P (s^{'} ∣ s, u) : S \times U \times S \to [0, 1]$ 是状态转移函数， $R (s) : S \to [0, 1]$ 是所有智能体共享的奖励函数， $\in [0, 1)$ 是折扣因子。

$Dec - POM D P$ 是部分可观测的是指：每个智能体 $i$ 无法访问完整的状态，而是根据观测分布 $O (s, i) : S \times A \to P (Z)$ 从观测空间 $Z$ 中采样观测 $z$ 。为了简化讨论，我们假设状态可以表示为一个 $k$ 维特征向量 $S ⊂ [0, 1]^k$ ，类似地， $Z ⊂ [0, 1]^l$ 。当观测函数 $O$ 是恒等映射时，问题就转化为一个 $MM D P$ （多智能体马尔可夫决策过程）。当每个智能体的观测都是可逆的，即观测空间可以根据状态空间 $S$ 进行划分： $\forall i \in A$ ， $s_1, s_2 \in S$ ， $z_i \in Z$ ，如果 $P (z_i|s_1) > 0$ 且 $s_1 \neq s_2$ ，则有 $P (z_i|s_2) = 0$ ，我们称该问题为 $MROM D P$ （multi-agent richly observed MDP，多智能体丰富观测马尔可夫决策过程）。将智能体 $i$ 的动作-观测历史记作 $\tau^i \in T ≡ (Z × U )^*$ 。我们用 $u^{-i}$ 表示除 $i$ 外所有智能体的动作，策略 $π^{-i}$ 亦如此。策略的价值被定义为：
$V^π = E_{π,ρ} [∑_{t=0}^∞ γ^t R_{\tau}(s_t)]$ 同样地，在给定策略 $π$ 的情况下，联合动作的价值函数定义为： $Q^π (s_t, u_t) = E_π [∑_{k=0}^∞ γ^k R(s_{t+k})|s_t, u_t]$

我们的目标是找到与最优值函数 $V^*$ 对应的最优策略 $π^*$ 。

具有智能体能力的多智能强化学习

现在扩展多智能强化学习问题设定，假设智能体可以具有不同的能力。为此，假设任务中的每个智能体可以用一个 $d$ 维的能力向量 $\in C$ 表示，该向量决定了它在奖励和转移动态中的贡献（从而也决定了其策略，记作 $π_i(·; c)$ ）。不失一般性，假设 $\Delta^{d-1}$ （即 $d - 1$ 维单纯形）。

接下来，我们假设存在一个未知的概率分布 $C^n \to \mathbb{R}^+$ ，其支集为 $S u p (M)$ ，位于联合能力空间 $C^n$ 的一个子集上。从 $M$ 中采样的任何 $T$ 都可视为一个能力向量元组 $(c_i)^n_{i=1}$ ，每个智能体对应一个能力向量。我们将 $T$ 增加到 $Dec - POM D P$ 中，得到 $G = <S, U, P_T, R_T, Z, O, n, ρ, γ, T>$ 称之为多智能强化学习设置的一个变体。由此， $T$ 定义了基础的多智能体马尔可夫决策过程的奖励和转移动态（即 $R_T(s) = <f(T) \cdot s>$ ，其中 $<\cdot>$ 表示点积， $C^n → \mathbb{R}^k$ 。转移动态也类似）。

我们的目标是找到算法，使其在 $M$ 中少量采样的变体上进行训练时，能够很好地泛化到 $M$ 中未见的团队变体上，即，我们希望最大化团队变体分布的期望值：

$\max_{\pi} E_{T ∼ M} \left[ E_{π(·;T), P_T, ρ} \left[ \sum_{t=0}^{\infty} \gamma^t R_T(s_t) \right] \right]\tag{1}$

其中 $\pi = \{π_i\}_{i=1}^n$ 是由 $n$ 个智能体组成的团队。

这里面临的挑战主要有两个方面。首先，智能体对这些能力向量的含义没有任何先前知识，因此需要学习它们的语义（也称为“基础对接”）。其次，在智能体无法观察到能力向量（包括可能无法看到自己的能力向量）的情况下，它们必须推测并学习如何与其他智能体共享这些信息的方式，以便能够在零样本情况下进行泛化。

$SF$ （Successor Features framework，后继特征）框架假设马尔可夫决策过程中的奖励可以表示为 $\phi(s)^{\top} w$ ，其中 $\phi(s) \in \mathbb{R}^d$ 是状态 $s$ 的特征， $\in \mathbb{R}^d$ 是权重。当对 $\phi(s)$ 不作任何假设时，任何奖励函数都可以通过这种表示方式恢复。价值函数可以表示为：
$\begin{align*} V^{\pi}(s) &= \mathbb{E}^{\pi} \left[ r_{t+1} + \gamma r_{t+2} + \dots \mid S_t = s \right] \\ &= \mathbb{E}^{\pi} \left[ \phi_{t+1}^{\top} w + \gamma \phi_{t+2}^{\top} w + \dots \mid S_t = s \right] \\ &= \psi^{\pi}(s)^{\top} w. \end{align*}$

这里， $\psi^{\pi}(s)$ 被称为在策略 $\pi$ 下状态 $s$ 的后继特征。后继特征 $\psi^{\pi}(s)$ 的第 $i$ 个分量表示在状态 $s$ 下遵循策略 $\pi$ 时，特征 $\phi_i$ 的期望折扣和。

分析

我们主要分析在分布 $M$ 下的泛化性质。以多智能体马尔可夫决策过程为例，假设奖励和转移线性依赖于智能体的能力 $c_i$ ：
$R_T(s) = \sum_{i=1}^n a_i \langle c_i \cdot W_R s \rangle\tag{2}$

$P_T(s'|s, u) = \sum_{i=1}^n a_i \langle c_i \cdot W_P(s', s, u) \rangle\tag{3}$

其中， $W_R \in \mathbb{R}^{d \times k}$ 是多智能体马尔科夫决策过程的奖励核，定义了奖励对每个能力分量的依赖性； $W_P : S \times U \times S \times \{1..d\} → [0, 1]$ 定义了多智能体马尔科夫决策过程的转移核，使得 $P_j(·|s, u) := W_P(s, u, j) \in \Delta_{|S|-1}$ ， $\in \{1..d\}$ 给出了由能力的第 $j$ 个分量所引导的下一个状态分布，并且智能体 $i$ 转移到 $s^{'}$ 状态的倾向（未加权）由
$\langle c_i \cdot [P_1(s'|s, u) \dots P_d(s'|s, u)] \rangle = \langle c_i \cdot W_P(s', s, u) \rangle$ 给出。最后， $(a_i)_{i=1}^n \in \Delta_{n-1}$ 是智能体的影响权重，量化了智能体 $i$ 在确定奖励和转移中的影响。在该线性设置下，给定策略 $\pi$ 和能力 $T$ ，价值函数满足
$V^{\pi}_T = \sum_{i=1}^n a_i \langle c_i \cdot W_R \mu^{\pi}_T \rangle$ 其中 $\mu^{\pi}_T = \mathbb{E}_{\rho, P_T, \pi} [\gamma^t s_t]$ 是期望的折扣状态特征。同样地，对于给定状态 $s$ ，我们有
$V^{\pi}_T(s) = \sum_{i=1}^n a_i \langle c_i^T W_R \cdot \mu^{\pi}_T(s) \rangle$ 其中 $\mu^{\pi}_T = \mathbb{E}_{P_T, \pi} [\gamma^t s_t | s_0 = s]$ 。

该线性动态公式将后继特征公式推广到了多智能体系统设置中。

我们现在给出关于不同团队组合的最优值之间差异的第一个结果：

定理 1（团队组合之间的泛化）
设团队组合 $T^x, T^y \in C^n$ 的影响权重分别为 $a^x, a^y \in \Delta_{n-1}$ ， $s_{\text{max}} = \max_s ||W_R s||_1$ ， $V_{\text{mid}} = \frac{1}{2} \max_s V^*_{T^y}(s)$ ，则有：

$|V^*_{T^x} - V^*_{T^y}| \leq \frac{s_{\text{max}} + \gamma d V_{\text{mid}}}{\gamma(1 - \gamma)} \Psi$

其中

$\Psi = \left|\sum_i a^x_i (T^x_i - T^y_i) \right|_\infty + \left| \sum_i (a^x_i - a^y_i) T^y_i \right|_\infty\tag{4}$

注：对于 $\gamma \in (0, \frac{\sqrt{5} - 1}{2})$ ，我们可以将 $\frac{1}{\gamma(1 - \gamma)}$ 替换为 $\frac{1 + \gamma}{1 - \gamma}$ 。

定理 1 提供了一个有趣的分解，用于给出两种团队组合之间最优值差异的上界。右侧括号中的第一项表示仅由于替换旧能力为新能力而产生的贡献。第二项表示因智能体对 MMDP 动态影响的变化而产生的贡献。

推论 1.1（由于智能体替换导致的最优值变化）
令 $\mathcal{T} \subset C^n$ 为具有影响权重 $\in \Delta_{n-1}$ 的团队组合。如果将智能体 $i$ 替换为智能体 $i^{'}$ , 且保持 $a_i$ 不变，并满足
$|T'_i - T_i|_\infty \leq \epsilon_C,$
那么新团队 ( $\mathcal{T}'$ ) 的最优值满足：
$|V^*_{\mathcal{T}'} - V^*_{\mathcal{T}}| \leq \frac{s_{\text{max}} + \gamma dV_{\text{mid}}}{\gamma (1 - \gamma)} \epsilon_C a_i.$

为了方便描述，我们固定影响权重 $a$ ，并在联合能力空间上定义一个度量：
$d_a(\mathcal{T}^x, \mathcal{T}^y) = | \sum_i a_iT^x_i - T^y_i|_\infty.$

将这一度量推广，取距离的下确界定义集合之间的距离：
$d_a(\mathcal{M}_x, \mathcal{M}_y) \triangleq \inf_{\mathcal{T}^x \in \mathcal{M}_x, \mathcal{T}^y \in \mathcal{M}_y} d_a(\mathcal{T}^x, \mathcal{T}^y).$

定义 1（绝对预言机）
设 $\pi^*_{\mathcal{M}}$ 为优化公式 (1) 的预言机策略，即 $\pi^*_{\mathcal{M}}$ 是一个多路复用策略，针对给定的团队组成 $\mathcal{T}$ ，其行为与针对 $\mathcal{T}^j$ 的最优策略完全一致，其中：
$\mathcal{T}^j \in \arg \min_{\mathcal{T}^l \in \text{Sup}(\mathcal{M})} d_a(\mathcal{T}^l, \mathcal{T}).$

我们接下来回答一个问题：当智能体仅在特定能力上训练时，学习到的策略在潜在未知能力上是否可以使用（例如，由于硬件组件的更改）。

定理 2（最优策略的迁移）
设 $\mathcal{T}^x, \mathcal{T}^y \in C^n$ ， $a^x, a^y \in \Delta_{n-1}$ ，
$s_{\max} = \max_s \| W R s \|_1, \quad V_{\text{mid}} = \frac{1}{2} \max_s V^*_{\mathcal{T}^y}(s).$
令 $\pi^y$ 为具有能力 $\mathcal{T}^y$ 和影响权重 $a^y$ 的代理团队的最优策略。那么：
$V^*_{\mathcal{T}^x} - V^*_{\pi^*_{\mathcal{T}^x}} \leq 2 \frac{s_{\max} + \gamma V_{\text{mid}}}{\gamma (1 - \gamma)} \Psi,$
其中 $\Psi$ 在公式 (4) 中定义。

推论 2.1（分布外性能）
令 $\mathcal{T} \notin \text{Sup}(\mathcal{M})$ 为分布外任务，那么绝对预言机策略在 $\mathcal{T}$ 上的性能满足：
$V^*_{\mathcal{T}} - V^*_{\pi^*_{\mathcal{T}}} \leq 2 \frac{s_{\max} + \gamma V_{\text{mid}}}{\gamma (1 - \gamma)} d_a(\mathcal{T}, \text{Sup}(\mathcal{M})).$

我们接下来讨论团队组成发生变化时的情形。

定理 3（人口减少界限）
对于团队组成 $\mathcal{T} \in C^n$ 和影响权重 $\in \Delta_{n-1}$ ，若将代理 $n$ 移除，并对影响权重重新归一化，则对于剩余团队 $\mathcal{T}^- \triangleq (\mathcal{T})^{n-1}_i$ ，有：
$|V^*_{\mathcal{T}^-} - V^*_{\mathcal{T}}| \leq \frac{a_n(s_{\max} + \gamma d V_{\text{mid}})}{\gamma(1 - \gamma)} \left| \sum_{i=1}^{n-1} \frac{a_i \mathcal{T}_i}{1 - a_n} - \mathcal{T}_n \right|_\infty.$

当 $\sum_{i=1}^{n-1} \frac{a_i \mathcal{T}_i}{1 - a_n} = \mathcal{T}_n$ 时，线性动力学模型中的特例可以解释为，如果团队中其他代理可以有效替代代理 $n$ ，则代理 $n$ 在原则上可以被认为是冗余的。事实上，只要能力 $\mathcal{T}_n$ 可以通过能力 $\mathcal{T}_i$ （ $\in \{1, \dots, n-1\}$ ）的凸组合形成，上述情况就成立。然而，后一种情况需要使用相应的凸系数，而不是重新归一化。类似的界限也可以容易地构造出来，用于重新利用在移除代理后的策略，并沿着定理 2 的思路得到相应的迁移界限。

推论 3.1（人口增加界限）
对于团队组成 $\mathcal{T} \in C^n$ 和影响权重 $\in \Delta_{n-1}$ ，若添加智能体 $n + 1$ ，其能力为 $\mathcal{T}_{n+1}$ 且权重为 $a_{n+1}$ （其他权重按 $\lambda = 1 - a_{n+1}$ 缩放），则对于新团队 $\mathcal{T}^+ \triangleq (\mathcal{T}_1, \dots, \mathcal{T}_n, \mathcal{T}_{n+1})$ ，有：
$|V^*_{\mathcal{T}^+} - V^*_{\mathcal{T}}| \leq \frac{a_{n+1}(s_{\max} + \gamma d V_{\text{mid}})}{\gamma(1 - \gamma)} \left| \sum_{i=1}^n a_i \mathcal{T}_i - \mathcal{T}_{n+1} \right|_\infty.$

我们接下来扩展定理 1 中的泛化界限，包含奖励函数和转移动态不是严格线性而是近似线性（分别具有偏差 $\hat{\epsilon}_R, \hat{\epsilon}_P$ ）的场景。

定理 4（近似 $\hat{\epsilon}_R, \hat{\epsilon}_P$ 动态）
设 $\mathcal{T}^x, \mathcal{T}^y \in C^n$ ， $a^x, a^y \in \Delta_{n-1}$ ，动态仅为近似线性，即：
$\left| R_{\mathcal{T}}(s) - \sum_{i=1}^n a_i (c_i \cdot W R s) \right| \leq \hat{\epsilon}_R$
和
$\left| P_{\mathcal{T}}(s' | s, u) - \sum_{i=1}^n a_i (c_i \cdot W P(s', s, u)) \right| \leq \hat{\epsilon}_P.$
则有：
$|V^*_{\mathcal{T}^x} - V^*_{\mathcal{T}^y}| \leq \frac{s_{\max} + \gamma d V_{\text{mid}}}{\gamma(1-\gamma)} \Psi + \frac{2 (\hat{\epsilon}_R + \gamma \hat{\epsilon}_P V_{\text{mid}})}{\gamma(1-\gamma)},$
其中 $\Psi$ 在公式 (4) 中定义。

接下来，我们考虑一种场景：智能体的能力不能直接观察，而是通过近似方法推断的。这种推断会引入一些估计误差（例如，由于观测中的噪声、不精确的显式或隐式交流协议等）。

定理 5（能力估计误差）
对于团队组成 $\mathcal{T} \in C^n$ 和影响权重 $\in \Delta_{n-1}$ ，如果智能体能力被不准确地推断为 $\hat{\mathcal{T}}$ ，且满足：
$\max_i |\mathcal{T}_i - \hat{\mathcal{T}}_i|_\infty \leq \epsilon_{\mathcal{T}},$
并且智能体学习到了不精确的策略 $\pi^*_{\hat{\mathcal{T}}}$ ，那么：
$|V^*_{\mathcal{T}} - V^*_{\pi^*_{\hat{\mathcal{T}}}}| \leq \frac{2 \epsilon_{\mathcal{T}} (s_{\max} + \gamma d V_{\text{mid}})}{\gamma(1 - \gamma)},$
其中 $V_{\text{mid}} = \frac{1}{2} \max_s V^*_{\hat{\mathcal{T}}}(s)$ 。

我们注意到，所有结果都可以扩展到奖励 $R_{\mathcal{T}}(s) = \langle f(\mathcal{T}) \cdot W_R s \rangle$ 的情况，其中 $f(\mathcal{T})$ 不再像公式 (2) 那样在能力上严格线性，而是对每个 $\in A$ 满足 Lipschitz 连续性，且系数为 $L_i$ 。例如，定理 1 可以改写为：

定理 6
若奖励 $L_i$ 在能力上关于 $\|\cdot\|_\infty$ 范数是 Lipschitz 连续的，则团队组成 $\mathcal{T}^x$ 和 $\mathcal{T}^y$ 的最优值差满足：
$|V^*_{\mathcal{T}^x} - V^*_{\mathcal{T}^y}| \leq \frac{s_{\max} \sum_{i=1}^n L_i |\mathcal{T}^x_i - \mathcal{T}^y_i|_\infty}{\gamma(1 - \gamma)}.$