协作式多智能体系统中的泛化
——协作式多智能体系统的组合泛化的理论基础
M M D P MMDP MMDP(Multi-Agent Markov Decision Process,多智能体马尔可夫决策过程)是一种用于描述多智能体系统中的决策问题的数学模型。与传统的单智能体马尔可夫决策过程(MDP)相比,MMDP涉及多个智能体在共享环境中相互作用。以下是MMDP的几个关键特点:
-
状态空间(State Space):MMDP的状态空间通常由所有智能体的状态组成,即 S = S 1 × S 2 × ⋯ × S n S = S_1 \times S_2 \times \cdots \times S_n S=S1×S2×⋯×Sn,其中 S i S_i Si 是智能体 i i i 的状态空间。
-
动作空间(Action Space):每个智能体都有自己的动作空间,整体的动作空间是所有智能体动作的组合,即 A = A 1 × A 2 × ⋯ × A n A = A_1 \times A_2 \times \cdots \times A_n A=A1×A2×⋯×An。
-
转移概率(Transition Probability):MMDP的转移概率描述在给定当前状态和所有智能体的动作下,系统转移到下一个状态的概率。转移概率通常表示为 P ( s ′ ∣ s , a ) P(s' | s, a) P(s′∣s,a),其中 s s s 是当前状态, a a a 是所有智能体的动作组合, s ′ s' s′ 是下一个状态。
-
奖励函数(Reward Function):MMDP中的奖励函数可以是局部的(每个智能体都有自己的奖励)或全局的(所有智能体共享一个奖励)。奖励函数通常表示为 R ( s , a ) R(s, a) R(s,a)。
-
策略(Policy):每个智能体都有自己的策略 π i \pi_i πi,用于决定在给定状态下选择哪个动作。
MMDP适用于许多实际问题,比如多机器人协作、分布式控制系统、竞争和合作的环境等。在这些场景中,智能体需要考虑其他智能体的行为,以优化自身的决策和整体系统的性能。
多智能体系统的组合泛化难以实现的原因:
1、智能体的功能可以有无穷种。比如,机器人关节的最大扭矩是连续变化的,在理论上可以有无穷多的可能值。
2、给定团队规模,可能的团队数量(与智能体能力相比)的组合爆炸。
3、能力需要以环境动态为基础,随着团队规模的增加,环境的动态变得越来越困难。
4、团队规模可能因任务而异。
5、智能体需要在隐藏的、可能不稳定的环境中推断队友的能力。
多智能强化学习
可将协作式多智能体任务视为一个 D e c − P O M D P Dec-POMDP Dec−POMDP(Decentralized Partially Observable Markov Decision Process,去中心化的部分可观测马尔可夫决策过程)。定义 G = < S , U , P , R , Z , O , n , ρ , γ > . G=<S, U, P, R, Z, O, n, ρ, γ>. G=<S,U,P,R,Z,O,n,ρ,γ>. 其中, S S S 是环境的状态空间, ρ ρ ρ 是初始状态分布。在每个时间点 t t t,每个智能体 i ∈ A ≡ { 1 , . . . , n } i \in A ≡ \{1, ..., n\} i∈A≡{1,...,n} 选择一个动作 u i ∈ U u_i \in U ui∈U,形成联合动作 u ∈ U ≡ U n u \in U ≡ U^n u∈U≡Un。 P ( s ′ ∣ s , u ) : S × U × S → [ 0 , 1 ] P (s'|s, u) : S × U × S → [0, 1] P(s′∣s,u):S×U×S→[0,1] 是状态转移函数, R ( s ) : S → [ 0 , 1 ] R(s) : S → [0, 1] R(s):S→[0,1] 是所有智能体共享的奖励函数, γ ∈ [ 0 , 1 ) γ \in [0, 1) γ∈[0,1) 是折扣因子。
D
e
c
−
P
O
M
D
P
Dec-POMDP
Dec−POMDP 是部分可观测的是指:每个智能体
i
i
i 无法访问完整的状态,而是根据观测分布
O
(
s
,
i
)
:
S
×
A
→
P
(
Z
)
O(s, i) : S × A → P(Z)
O(s,i):S×A→P(Z) 从观测空间
Z
Z
Z 中采样观测
z
z
z。为了简化讨论,我们假设状态可以表示为一个
k
k
k 维特征向量
S
⊂
[
0
,
1
]
k
S ⊂ [0, 1]^k
S⊂[0,1]k,类似地,
Z
⊂
[
0
,
1
]
l
Z ⊂ [0, 1]^l
Z⊂[0,1]l。当观测函数
O
O
O 是恒等映射时,问题就转化为一个
M
M
D
P
MMDP
MMDP (多智能体马尔可夫决策过程 )。当每个智能体的观测都是可逆的,即观测空间可以根据状态空间
S
S
S 进行划分:
∀
i
∈
A
\forall i \in A
∀i∈A,
s
1
,
s
2
∈
S
s_1, s_2 \in S
s1,s2∈S,
z
i
∈
Z
z_i \in Z
zi∈Z,如果
P
(
z
i
∣
s
1
)
>
0
P (z_i|s_1) > 0
P(zi∣s1)>0 且
s
1
≠
s
2
s_1 \neq s_2
s1=s2,则有
P
(
z
i
∣
s
2
)
=
0
P (z_i|s_2) = 0
P(zi∣s2)=0,我们称该问题为
M
R
O
M
D
P
MROMDP
MROMDP(multi-agent richly observed MDP,多智能体丰富观测马尔可夫决策过程)。将智能体
i
i
i 的动作-观测历史记作
τ
i
∈
T
≡
(
Z
×
U
)
∗
\tau^i \in T ≡ (Z × U )^*
τi∈T≡(Z×U)∗。我们用
u
−
i
u^{-i}
u−i 表示除
i
i
i 外所有智能体的动作,策略
π
−
i
π^{-i}
π−i 亦如此。策略的价值被定义为 :
V
π
=
E
π
,
ρ
[
∑
t
=
0
∞
γ
t
R
τ
(
s
t
)
]
V^π = E_{π,ρ} [∑_{t=0}^∞ γ^t R_{\tau}(s_t)]
Vπ=Eπ,ρ[t=0∑∞γtRτ(st)]同样地,在给定策略
π
π
π 的情况下,联合动作的价值函数定义为:
[
Q
π
(
s
t
,
u
t
)
=
E
π
[
∑
k
=
0
∞
γ
k
R
(
s
t
+
k
)
∣
s
t
,
u
t
]
[Q^π (s_t, u_t) = E_π [∑_{k=0}^∞ γ^k R(s_{t+k})|s_t, u_t]
[Qπ(st,ut)=Eπ[k=0∑∞γkR(st+k)∣st,ut]
我们的目标是找到与最优值函数 V ∗ V^* V∗ 对应的最优策略 π ∗ π^* π∗。
具有智能体能力的多智能强化学习
现在扩展多智能强化学习问题设定,假设智能体可以具有不同的能力。为此,假设任务中的每个智能体可以用一个 d d d 维的能力向量 c ∈ C c \in C c∈C 表示,该向量决定了它在奖励和转移动态中的贡献(从而也决定了其策略,记作 π i ( ⋅ ; c ) π_i(·; c) πi(⋅;c))。不失一般性,假设 C ⊆ Δ d − 1 C ⊆ \Delta^{d-1} C⊆Δd−1(即 d − 1 d - 1 d−1 维单纯形)。
接下来,我们假设存在一个未知的概率分布 M : C n → R + M : C^n \to \mathbb{R}^+ M:Cn→R+,其支集为 S u p ( M ) Sup(M) Sup(M),位于联合能力空间 C n C^n Cn 的一个子集上。从 M M M 中采样的任何 T T T 都可视为一个能力向量元组 T = ( c i ) i = 1 n T = (c_i)^n_{i=1} T=(ci)i=1n,每个智能体对应一个能力向量。我们将 T T T 增加到 D e c − P O M D P Dec-POMDP Dec−POMDP 中,得到 G = < S , U , P T , R T , Z , O , n , ρ , γ , T > G = <S, U, P_T, R_T, Z, O, n, ρ, γ, T> G=<S,U,PT,RT,Z,O,n,ρ,γ,T>称之为多智能强化学习设置的一个变体。由此, T T T 定义了基础的多智能体马尔可夫决策过程的奖励和转移动态(即 R T ( s ) = < f ( T ) ⋅ s > R_T(s) = <f(T) \cdot s> RT(s)=<f(T)⋅s>,其中 < ⋅ > <\cdot> <⋅> 表示点积, f : C n → R k f : C^n → \mathbb{R}^k f:Cn→Rk。转移动态也类似)。
我们的目标是找到算法,使其在 M M M中少量采样的变体上进行训练时,能够很好地泛化到 M M M 中未见的团队变体上,即,我们希望最大化团队变体分布的期望值:
max π E T ∼ M [ E π ( ⋅ ; T ) , P T , ρ [ ∑ t = 0 ∞ γ t R T ( s t ) ] ] (1) \max_{\pi} E_{T ∼ M} \left[ E_{π(·;T), P_T, ρ} \left[ \sum_{t=0}^{\infty} \gamma^t R_T(s_t) \right] \right]\tag{1} πmaxET∼M[Eπ(⋅;T),PT,ρ[t=0∑∞γtRT(st)]](1)
其中 π = { π i } i = 1 n \pi = \{π_i\}_{i=1}^n π={πi}i=1n 是由 n n n 个智能体组成的团队。
这里面临的挑战主要有两个方面。首先,智能体对这些能力向量的含义没有任何先前知识,因此需要学习它们的语义(也称为“基础对接”)。其次,在智能体无法观察到能力向量(包括可能无法看到自己的能力向量)的情况下,它们必须推测并学习如何与其他智能体共享这些信息的方式,以便能够在零样本情况下进行泛化。
S
F
SF
SF(Successor Features framework,后继特征)框架假设马尔可夫决策过程中的奖励可以表示为
r
(
s
)
=
ϕ
(
s
)
⊤
w
r(s) = \phi(s)^{\top} w
r(s)=ϕ(s)⊤w,其中
ϕ
(
s
)
∈
R
d
\phi(s) \in \mathbb{R}^d
ϕ(s)∈Rd 是状态
s
s
s 的特征,
w
∈
R
d
w \in \mathbb{R}^d
w∈Rd 是权重。当对
ϕ
(
s
)
\phi(s)
ϕ(s) 不作任何假设时,任何奖励函数都可以通过这种表示方式恢复。价值函数可以表示为:
V
π
(
s
)
=
E
π
[
r
t
+
1
+
γ
r
t
+
2
+
⋯
∣
S
t
=
s
]
=
E
π
[
ϕ
t
+
1
⊤
w
+
γ
ϕ
t
+
2
⊤
w
+
⋯
∣
S
t
=
s
]
=
ψ
π
(
s
)
⊤
w
.
\begin{align*} V^{\pi}(s) &= \mathbb{E}^{\pi} \left[ r_{t+1} + \gamma r_{t+2} + \dots \mid S_t = s \right] \\ &= \mathbb{E}^{\pi} \left[ \phi_{t+1}^{\top} w + \gamma \phi_{t+2}^{\top} w + \dots \mid S_t = s \right] \\ &= \psi^{\pi}(s)^{\top} w. \end{align*}
Vπ(s)=Eπ[rt+1+γrt+2+⋯∣St=s]=Eπ[ϕt+1⊤w+γϕt+2⊤w+⋯∣St=s]=ψπ(s)⊤w.
这里, ψ π ( s ) \psi^{\pi}(s) ψπ(s) 被称为在策略 π \pi π 下状态 s s s 的后继特征。后继特征 ψ π ( s ) \psi^{\pi}(s) ψπ(s) 的第 i i i 个分量表示在状态 s s s 下遵循策略 π \pi π 时,特征 ϕ i \phi_i ϕi 的期望折扣和。
分析
我们主要分析在分布
M
M
M 下的泛化性质。以多智能体马尔可夫决策过程为例,假设奖励和转移线性依赖于智能体的能力
c
i
c_i
ci:
R
T
(
s
)
=
∑
i
=
1
n
a
i
⟨
c
i
⋅
W
R
s
⟩
(2)
R_T(s) = \sum_{i=1}^n a_i \langle c_i \cdot W_R s \rangle\tag{2}
RT(s)=i=1∑nai⟨ci⋅WRs⟩(2)
P T ( s ′ ∣ s , u ) = ∑ i = 1 n a i ⟨ c i ⋅ W P ( s ′ , s , u ) ⟩ (3) P_T(s'|s, u) = \sum_{i=1}^n a_i \langle c_i \cdot W_P(s', s, u) \rangle\tag{3} PT(s′∣s,u)=i=1∑nai⟨ci⋅WP(s′,s,u)⟩(3)
其中,
W
R
∈
R
d
×
k
W_R \in \mathbb{R}^{d \times k}
WR∈Rd×k 是多智能体马尔科夫决策过程的奖励核,定义了奖励对每个能力分量的依赖性;
W
P
:
S
×
U
×
S
×
{
1..
d
}
→
[
0
,
1
]
W_P : S \times U \times S \times \{1..d\} → [0, 1]
WP:S×U×S×{1..d}→[0,1] 定义了多智能体马尔科夫决策过程的转移核,使得
P
j
(
⋅
∣
s
,
u
)
:
=
W
P
(
s
,
u
,
j
)
∈
Δ
∣
S
∣
−
1
P_j(·|s, u) := W_P(s, u, j) \in \Delta_{|S|-1}
Pj(⋅∣s,u):=WP(s,u,j)∈Δ∣S∣−1,
j
∈
{
1..
d
}
j \in \{1..d\}
j∈{1..d} 给出了由能力的第
j
j
j 个分量所引导的下一个状态分布,并且智能体
i
i
i 转移到
s
′
s'
s′ 状态的倾向(未加权)由
⟨
c
i
⋅
[
P
1
(
s
′
∣
s
,
u
)
…
P
d
(
s
′
∣
s
,
u
)
]
⟩
=
⟨
c
i
⋅
W
P
(
s
′
,
s
,
u
)
⟩
\langle c_i \cdot [P_1(s'|s, u) \dots P_d(s'|s, u)] \rangle = \langle c_i \cdot W_P(s', s, u) \rangle
⟨ci⋅[P1(s′∣s,u)…Pd(s′∣s,u)]⟩=⟨ci⋅WP(s′,s,u)⟩给出。最后,
(
a
i
)
i
=
1
n
∈
Δ
n
−
1
(a_i)_{i=1}^n \in \Delta_{n-1}
(ai)i=1n∈Δn−1 是智能体的影响权重,量化了智能体
i
i
i 在确定奖励和转移中的影响。在该线性设置下,给定策略
π
\pi
π 和能力
T
T
T,价值函数满足
V
T
π
=
∑
i
=
1
n
a
i
⟨
c
i
⋅
W
R
μ
T
π
⟩
V^{\pi}_T = \sum_{i=1}^n a_i \langle c_i \cdot W_R \mu^{\pi}_T \rangle
VTπ=i=1∑nai⟨ci⋅WRμTπ⟩其中
μ
T
π
=
E
ρ
,
P
T
,
π
[
γ
t
s
t
]
\mu^{\pi}_T = \mathbb{E}_{\rho, P_T, \pi} [\gamma^t s_t]
μTπ=Eρ,PT,π[γtst] 是期望的折扣状态特征。同样地,对于给定状态
s
s
s,我们有
V
T
π
(
s
)
=
∑
i
=
1
n
a
i
⟨
c
i
T
W
R
⋅
μ
T
π
(
s
)
⟩
V^{\pi}_T(s) = \sum_{i=1}^n a_i \langle c_i^T W_R \cdot \mu^{\pi}_T(s) \rangle
VTπ(s)=i=1∑nai⟨ciTWR⋅μTπ(s)⟩其中
μ
T
π
=
E
P
T
,
π
[
γ
t
s
t
∣
s
0
=
s
]
\mu^{\pi}_T = \mathbb{E}_{P_T, \pi} [\gamma^t s_t | s_0 = s]
μTπ=EPT,π[γtst∣s0=s]。
该线性动态公式将后继特征公式推广到了多智能体系统设置中。
我们现在给出关于不同团队组合的最优值之间差异的第一个结果:
定理 1(团队组合之间的泛化)
设团队组合
T
x
,
T
y
∈
C
n
T^x, T^y \in C^n
Tx,Ty∈Cn 的影响权重分别为
a
x
,
a
y
∈
Δ
n
−
1
a^x, a^y \in \Delta_{n-1}
ax,ay∈Δn−1,
s
max
=
max
s
∣
∣
W
R
s
∣
∣
1
s_{\text{max}} = \max_s ||W_R s||_1
smax=maxs∣∣WRs∣∣1,
V
mid
=
1
2
max
s
V
T
y
∗
(
s
)
V_{\text{mid}} = \frac{1}{2} \max_s V^*_{T^y}(s)
Vmid=21maxsVTy∗(s),则有:
∣ V T x ∗ − V T y ∗ ∣ ≤ s max + γ d V mid γ ( 1 − γ ) Ψ |V^*_{T^x} - V^*_{T^y}| \leq \frac{s_{\text{max}} + \gamma d V_{\text{mid}}}{\gamma(1 - \gamma)} \Psi ∣VTx∗−VTy∗∣≤γ(1−γ)smax+γdVmidΨ
其中
Ψ = ∣ ∑ i a i x ( T i x − T i y ) ∣ ∞ + ∣ ∑ i ( a i x − a i y ) T i y ∣ ∞ (4) \Psi = \left|\sum_i a^x_i (T^x_i - T^y_i) \right|_\infty + \left| \sum_i (a^x_i - a^y_i) T^y_i \right|_\infty\tag{4} Ψ= i∑aix(Tix−Tiy) ∞+ i∑(aix−aiy)Tiy ∞(4)
注:对于 γ ∈ ( 0 , 5 − 1 2 ) \gamma \in (0, \frac{\sqrt{5} - 1}{2}) γ∈(0,25−1),我们可以将 1 γ ( 1 − γ ) \frac{1}{\gamma(1 - \gamma)} γ(1−γ)1 替换为 1 + γ 1 − γ \frac{1 + \gamma}{1 - \gamma} 1−γ1+γ 。
定理 1 提供了一个有趣的分解,用于给出两种团队组合之间最优值差异的上界。右侧括号中的第一项表示仅由于替换旧能力为新能力而产生的贡献。第二项表示因智能体对 MMDP 动态影响的变化而产生的贡献。
推论 1.1(由于智能体替换导致的最优值变化)
令
T
⊂
C
n
\mathcal{T} \subset C^n
T⊂Cn 为具有影响权重
a
∈
Δ
n
−
1
a \in \Delta_{n-1}
a∈Δn−1 的团队组合。如果将智能体
i
i
i 替换为智能体
i
′
i'
i′, 且保持
a
i
a_i
ai 不变,并满足
∣
T
i
′
−
T
i
∣
∞
≤
ϵ
C
,
|T'_i - T_i|_\infty \leq \epsilon_C,
∣Ti′−Ti∣∞≤ϵC,
那么新团队 (
T
′
\mathcal{T}'
T′) 的最优值满足:
∣
V
T
′
∗
−
V
T
∗
∣
≤
s
max
+
γ
d
V
mid
γ
(
1
−
γ
)
ϵ
C
a
i
.
|V^*_{\mathcal{T}'} - V^*_{\mathcal{T}}| \leq \frac{s_{\text{max}} + \gamma dV_{\text{mid}}}{\gamma (1 - \gamma)} \epsilon_C a_i.
∣VT′∗−VT∗∣≤γ(1−γ)smax+γdVmidϵCai.
为了方便描述,我们固定影响权重
a
a
a,并在联合能力空间上定义一个度量:
d
a
(
T
x
,
T
y
)
=
∣
∑
i
a
i
T
i
x
−
T
i
y
∣
∞
.
d_a(\mathcal{T}^x, \mathcal{T}^y) = | \sum_i a_iT^x_i - T^y_i|_\infty.
da(Tx,Ty)=∣i∑aiTix−Tiy∣∞.
将这一度量推广,取距离的下确界定义集合之间的距离:
d
a
(
M
x
,
M
y
)
≜
inf
T
x
∈
M
x
,
T
y
∈
M
y
d
a
(
T
x
,
T
y
)
.
d_a(\mathcal{M}_x, \mathcal{M}_y) \triangleq \inf_{\mathcal{T}^x \in \mathcal{M}_x, \mathcal{T}^y \in \mathcal{M}_y} d_a(\mathcal{T}^x, \mathcal{T}^y).
da(Mx,My)≜Tx∈Mx,Ty∈Myinfda(Tx,Ty).
定义 1(绝对预言机)
设
π
M
∗
\pi^*_{\mathcal{M}}
πM∗ 为优化公式 (1) 的预言机策略,即
π
M
∗
\pi^*_{\mathcal{M}}
πM∗ 是一个多路复用策略,针对给定的团队组成
T
\mathcal{T}
T,其行为与针对
T
j
\mathcal{T}^j
Tj 的最优策略完全一致,其中:
T
j
∈
arg
min
T
l
∈
Sup
(
M
)
d
a
(
T
l
,
T
)
.
\mathcal{T}^j \in \arg \min_{\mathcal{T}^l \in \text{Sup}(\mathcal{M})} d_a(\mathcal{T}^l, \mathcal{T}).
Tj∈argTl∈Sup(M)minda(Tl,T).
我们接下来回答一个问题:当智能体仅在特定能力上训练时,学习到的策略在潜在未知能力上是否可以使用(例如,由于硬件组件的更改)。
定理 2(最优策略的迁移)
设
T
x
,
T
y
∈
C
n
\mathcal{T}^x, \mathcal{T}^y \in C^n
Tx,Ty∈Cn,
a
x
,
a
y
∈
Δ
n
−
1
a^x, a^y \in \Delta_{n-1}
ax,ay∈Δn−1,
s
max
=
max
s
∥
W
R
s
∥
1
,
V
mid
=
1
2
max
s
V
T
y
∗
(
s
)
.
s_{\max} = \max_s \| W R s \|_1, \quad V_{\text{mid}} = \frac{1}{2} \max_s V^*_{\mathcal{T}^y}(s).
smax=smax∥WRs∥1,Vmid=21smaxVTy∗(s).
令
π
y
\pi^y
πy 为具有能力
T
y
\mathcal{T}^y
Ty 和影响权重
a
y
a^y
ay 的代理团队的最优策略。那么:
V
T
x
∗
−
V
π
T
x
∗
∗
≤
2
s
max
+
γ
V
mid
γ
(
1
−
γ
)
Ψ
,
V^*_{\mathcal{T}^x} - V^*_{\pi^*_{\mathcal{T}^x}} \leq 2 \frac{s_{\max} + \gamma V_{\text{mid}}}{\gamma (1 - \gamma)} \Psi,
VTx∗−VπTx∗∗≤2γ(1−γ)smax+γVmidΨ,
其中
Ψ
\Psi
Ψ 在公式 (4) 中定义。
推论 2.1(分布外性能)
令
T
∉
Sup
(
M
)
\mathcal{T} \notin \text{Sup}(\mathcal{M})
T∈/Sup(M) 为分布外任务,那么绝对预言机策略在
T
\mathcal{T}
T 上的性能满足:
V
T
∗
−
V
π
T
∗
∗
≤
2
s
max
+
γ
V
mid
γ
(
1
−
γ
)
d
a
(
T
,
Sup
(
M
)
)
.
V^*_{\mathcal{T}} - V^*_{\pi^*_{\mathcal{T}}} \leq 2 \frac{s_{\max} + \gamma V_{\text{mid}}}{\gamma (1 - \gamma)} d_a(\mathcal{T}, \text{Sup}(\mathcal{M})).
VT∗−VπT∗∗≤2γ(1−γ)smax+γVmidda(T,Sup(M)).
我们接下来讨论团队组成发生变化时的情形。
定理 3(人口减少界限)
对于团队组成
T
∈
C
n
\mathcal{T} \in C^n
T∈Cn 和影响权重
a
∈
Δ
n
−
1
a \in \Delta_{n-1}
a∈Δn−1,若将代理
n
n
n 移除,并对影响权重重新归一化,则对于剩余团队
T
−
≜
(
T
)
i
n
−
1
\mathcal{T}^- \triangleq (\mathcal{T})^{n-1}_i
T−≜(T)in−1,有:
∣
V
T
−
∗
−
V
T
∗
∣
≤
a
n
(
s
max
+
γ
d
V
mid
)
γ
(
1
−
γ
)
∣
∑
i
=
1
n
−
1
a
i
T
i
1
−
a
n
−
T
n
∣
∞
.
|V^*_{\mathcal{T}^-} - V^*_{\mathcal{T}}| \leq \frac{a_n(s_{\max} + \gamma d V_{\text{mid}})}{\gamma(1 - \gamma)} \left| \sum_{i=1}^{n-1} \frac{a_i \mathcal{T}_i}{1 - a_n} - \mathcal{T}_n \right|_\infty.
∣VT−∗−VT∗∣≤γ(1−γ)an(smax+γdVmid)
i=1∑n−11−anaiTi−Tn
∞.
当 ∑ i = 1 n − 1 a i T i 1 − a n = T n \sum_{i=1}^{n-1} \frac{a_i \mathcal{T}_i}{1 - a_n} = \mathcal{T}_n ∑i=1n−11−anaiTi=Tn 时,线性动力学模型中的特例可以解释为,如果团队中其他代理可以有效替代代理 n n n,则代理 n n n 在原则上可以被认为是冗余的。事实上,只要能力 T n \mathcal{T}_n Tn 可以通过能力 T i \mathcal{T}_i Ti( i ∈ { 1 , … , n − 1 } i \in \{1, \dots, n-1\} i∈{1,…,n−1})的凸组合形成,上述情况就成立。然而,后一种情况需要使用相应的凸系数,而不是重新归一化。类似的界限也可以容易地构造出来,用于重新利用在移除代理后的策略,并沿着定理 2 的思路得到相应的迁移界限。
推论 3.1(人口增加界限)
对于团队组成
T
∈
C
n
\mathcal{T} \in C^n
T∈Cn 和影响权重
a
∈
Δ
n
−
1
a \in \Delta_{n-1}
a∈Δn−1,若添加智能体
n
+
1
n+1
n+1,其能力为
T
n
+
1
\mathcal{T}_{n+1}
Tn+1 且权重为
a
n
+
1
a_{n+1}
an+1(其他权重按
λ
=
1
−
a
n
+
1
\lambda = 1 - a_{n+1}
λ=1−an+1 缩放),则对于新团队
T
+
≜
(
T
1
,
…
,
T
n
,
T
n
+
1
)
\mathcal{T}^+ \triangleq (\mathcal{T}_1, \dots, \mathcal{T}_n, \mathcal{T}_{n+1})
T+≜(T1,…,Tn,Tn+1),有:
∣
V
T
+
∗
−
V
T
∗
∣
≤
a
n
+
1
(
s
max
+
γ
d
V
mid
)
γ
(
1
−
γ
)
∣
∑
i
=
1
n
a
i
T
i
−
T
n
+
1
∣
∞
.
|V^*_{\mathcal{T}^+} - V^*_{\mathcal{T}}| \leq \frac{a_{n+1}(s_{\max} + \gamma d V_{\text{mid}})}{\gamma(1 - \gamma)} \left| \sum_{i=1}^n a_i \mathcal{T}_i - \mathcal{T}_{n+1} \right|_\infty.
∣VT+∗−VT∗∣≤γ(1−γ)an+1(smax+γdVmid)
i=1∑naiTi−Tn+1
∞.
我们接下来扩展定理 1 中的泛化界限,包含奖励函数和转移动态不是严格线性而是近似线性(分别具有偏差 ϵ ^ R , ϵ ^ P \hat{\epsilon}_R, \hat{\epsilon}_P ϵ^R,ϵ^P)的场景。
定理 4(近似
ϵ
^
R
,
ϵ
^
P
\hat{\epsilon}_R, \hat{\epsilon}_P
ϵ^R,ϵ^P 动态)
设
T
x
,
T
y
∈
C
n
\mathcal{T}^x, \mathcal{T}^y \in C^n
Tx,Ty∈Cn,
a
x
,
a
y
∈
Δ
n
−
1
a^x, a^y \in \Delta_{n-1}
ax,ay∈Δn−1,动态仅为近似线性,即:
∣
R
T
(
s
)
−
∑
i
=
1
n
a
i
(
c
i
⋅
W
R
s
)
∣
≤
ϵ
^
R
\left| R_{\mathcal{T}}(s) - \sum_{i=1}^n a_i (c_i \cdot W R s) \right| \leq \hat{\epsilon}_R
RT(s)−i=1∑nai(ci⋅WRs)
≤ϵ^R
和
∣
P
T
(
s
′
∣
s
,
u
)
−
∑
i
=
1
n
a
i
(
c
i
⋅
W
P
(
s
′
,
s
,
u
)
)
∣
≤
ϵ
^
P
.
\left| P_{\mathcal{T}}(s' | s, u) - \sum_{i=1}^n a_i (c_i \cdot W P(s', s, u)) \right| \leq \hat{\epsilon}_P.
PT(s′∣s,u)−i=1∑nai(ci⋅WP(s′,s,u))
≤ϵ^P.
则有:
∣
V
T
x
∗
−
V
T
y
∗
∣
≤
s
max
+
γ
d
V
mid
γ
(
1
−
γ
)
Ψ
+
2
(
ϵ
^
R
+
γ
ϵ
^
P
V
mid
)
γ
(
1
−
γ
)
,
|V^*_{\mathcal{T}^x} - V^*_{\mathcal{T}^y}| \leq \frac{s_{\max} + \gamma d V_{\text{mid}}}{\gamma(1-\gamma)} \Psi + \frac{2 (\hat{\epsilon}_R + \gamma \hat{\epsilon}_P V_{\text{mid}})}{\gamma(1-\gamma)},
∣VTx∗−VTy∗∣≤γ(1−γ)smax+γdVmidΨ+γ(1−γ)2(ϵ^R+γϵ^PVmid),
其中
Ψ
\Psi
Ψ 在公式 (4) 中定义。
接下来,我们考虑一种场景:智能体的能力不能直接观察,而是通过近似方法推断的。这种推断会引入一些估计误差(例如,由于观测中的噪声、不精确的显式或隐式交流协议等)。
定理 5(能力估计误差)
对于团队组成
T
∈
C
n
\mathcal{T} \in C^n
T∈Cn 和影响权重
a
∈
Δ
n
−
1
a \in \Delta_{n-1}
a∈Δn−1,如果智能体能力被不准确地推断为
T
^
\hat{\mathcal{T}}
T^,且满足:
max
i
∣
T
i
−
T
^
i
∣
∞
≤
ϵ
T
,
\max_i |\mathcal{T}_i - \hat{\mathcal{T}}_i|_\infty \leq \epsilon_{\mathcal{T}},
imax∣Ti−T^i∣∞≤ϵT,
并且智能体学习到了不精确的策略
π
T
^
∗
\pi^*_{\hat{\mathcal{T}}}
πT^∗,那么:
∣
V
T
∗
−
V
π
T
^
∗
∗
∣
≤
2
ϵ
T
(
s
max
+
γ
d
V
mid
)
γ
(
1
−
γ
)
,
|V^*_{\mathcal{T}} - V^*_{\pi^*_{\hat{\mathcal{T}}}}| \leq \frac{2 \epsilon_{\mathcal{T}} (s_{\max} + \gamma d V_{\text{mid}})}{\gamma(1 - \gamma)},
∣VT∗−VπT^∗∗∣≤γ(1−γ)2ϵT(smax+γdVmid),
其中
V
mid
=
1
2
max
s
V
T
^
∗
(
s
)
V_{\text{mid}} = \frac{1}{2} \max_s V^*_{\hat{\mathcal{T}}}(s)
Vmid=21maxsVT^∗(s)。
我们注意到,所有结果都可以扩展到奖励 R T ( s ) = ⟨ f ( T ) ⋅ W R s ⟩ R_{\mathcal{T}}(s) = \langle f(\mathcal{T}) \cdot W_R s \rangle RT(s)=⟨f(T)⋅WRs⟩ 的情况,其中 f ( T ) f(\mathcal{T}) f(T) 不再像公式 (2) 那样在能力上严格线性,而是对每个 i ∈ A i \in A i∈A 满足 Lipschitz 连续性,且系数为 L i L_i Li。例如,定理 1 可以改写为:
定理 6
若奖励
L
i
L_i
Li 在能力上关于
∥
⋅
∥
∞
\|\cdot\|_\infty
∥⋅∥∞ 范数是 Lipschitz 连续的,则团队组成
T
x
\mathcal{T}^x
Tx 和
T
y
\mathcal{T}^y
Ty 的最优值差满足:
∣
V
T
x
∗
−
V
T
y
∗
∣
≤
s
max
∑
i
=
1
n
L
i
∣
T
i
x
−
T
i
y
∣
∞
γ
(
1
−
γ
)
.
|V^*_{\mathcal{T}^x} - V^*_{\mathcal{T}^y}| \leq \frac{s_{\max} \sum_{i=1}^n L_i |\mathcal{T}^x_i - \mathcal{T}^y_i|_\infty}{\gamma(1 - \gamma)}.
∣VTx∗−VTy∗∣≤γ(1−γ)smax∑i=1nLi∣Tix−Tiy∣∞.