协作式多智能体系统中的泛化

协作式多智能体系统中的泛化

——协作式多智能体系统的组合泛化的理论基础

M M D P MMDP MMDP(Multi-Agent Markov Decision Process,多智能体马尔可夫决策过程)是一种用于描述多智能体系统中的决策问题的数学模型。与传统的单智能体马尔可夫决策过程(MDP)相比,MMDP涉及多个智能体在共享环境中相互作用。以下是MMDP的几个关键特点:

  1. 状态空间(State Space):MMDP的状态空间通常由所有智能体的状态组成,即 S = S 1 × S 2 × ⋯ × S n S = S_1 \times S_2 \times \cdots \times S_n S=S1×S2××Sn,其中 S i S_i Si 是智能体 i i i 的状态空间。

  2. 动作空间(Action Space):每个智能体都有自己的动作空间,整体的动作空间是所有智能体动作的组合,即 A = A 1 × A 2 × ⋯ × A n A = A_1 \times A_2 \times \cdots \times A_n A=A1×A2××An

  3. 转移概率(Transition Probability):MMDP的转移概率描述在给定当前状态和所有智能体的动作下,系统转移到下一个状态的概率。转移概率通常表示为 P ( s ′ ∣ s , a ) P(s' | s, a) P(ss,a),其中 s s s 是当前状态, a a a 是所有智能体的动作组合, s ′ s' s 是下一个状态。

  4. 奖励函数(Reward Function):MMDP中的奖励函数可以是局部的(每个智能体都有自己的奖励)或全局的(所有智能体共享一个奖励)。奖励函数通常表示为 R ( s , a ) R(s, a) R(s,a)

  5. 策略(Policy):每个智能体都有自己的策略 π i \pi_i πi,用于决定在给定状态下选择哪个动作。

MMDP适用于许多实际问题,比如多机器人协作、分布式控制系统、竞争和合作的环境等。在这些场景中,智能体需要考虑其他智能体的行为,以优化自身的决策和整体系统的性能。

多智能体系统的组合泛化难以实现的原因:

1、智能体的功能可以有无穷种。比如,机器人关节的最大扭矩是连续变化的,在理论上可以有无穷多的可能值。
2、给定团队规模,可能的团队数量(与智能体能力相比)的组合爆炸。
3、能力需要以环境动态为基础,随着团队规模的增加,环境的动态变得越来越困难。
4、团队规模可能因任务而异。
5、智能体需要在隐藏的、可能不稳定的环境中推断队友的能力。

多智能强化学习

可将协作式多智能体任务视为一个 D e c − P O M D P Dec-POMDP DecPOMDP(Decentralized Partially Observable Markov Decision Process,去中心化的部分可观测马尔可夫决策过程)。定义 G = < S , U , P , R , Z , O , n , ρ , γ > . G=<S, U, P, R, Z, O, n, ρ, γ>. G=<S,U,P,R,Z,O,n,ρ,γ>. 其中, S S S 是环境的状态空间, ρ ρ ρ 是初始状态分布。在每个时间点 t t t,每个智能体 i ∈ A ≡ { 1 , . . . , n } i \in A ≡ \{1, ..., n\} iA{1,...,n} 选择一个动作 u i ∈ U u_i \in U uiU,形成联合动作 u ∈ U ≡ U n u \in U ≡ U^n uUUn P ( s ′ ∣ s , u ) : S × U × S → [ 0 , 1 ] P (s'|s, u) : S × U × S → [0, 1] P(ss,u):S×U×S[0,1] 是状态转移函数, R ( s ) : S → [ 0 , 1 ] R(s) : S → [0, 1] R(s):S[0,1] 是所有智能体共享的奖励函数, γ ∈ [ 0 , 1 ) γ \in [0, 1) γ[0,1) 是折扣因子。

D e c − P O M D P Dec-POMDP DecPOMDP 是部分可观测的是指:每个智能体 i i i 无法访问完整的状态,而是根据观测分布 O ( s , i ) : S × A → P ( Z ) O(s, i) : S × A → P(Z) O(s,i):S×AP(Z) 从观测空间 Z Z Z 中采样观测 z z z。为了简化讨论,我们假设状态可以表示为一个 k k k 维特征向量 S ⊂ [ 0 , 1 ] k S ⊂ [0, 1]^k S[0,1]k,类似地, Z ⊂ [ 0 , 1 ] l Z ⊂ [0, 1]^l Z[0,1]l。当观测函数 O O O 是恒等映射时,问题就转化为一个 M M D P MMDP MMDP (多智能体马尔可夫决策过程 )。当每个智能体的观测都是可逆的,即观测空间可以根据状态空间 S S S 进行划分: ∀ i ∈ A \forall i \in A iA s 1 , s 2 ∈ S s_1, s_2 \in S s1,s2S z i ∈ Z z_i \in Z ziZ,如果 P ( z i ∣ s 1 ) > 0 P (z_i|s_1) > 0 P(zis1)>0 s 1 ≠ s 2 s_1 \neq s_2 s1=s2,则有 P ( z i ∣ s 2 ) = 0 P (z_i|s_2) = 0 P(zis2)=0,我们称该问题为 M R O M D P MROMDP MROMDP(multi-agent richly observed MDP,多智能体丰富观测马尔可夫决策过程)。将智能体 i i i 的动作-观测历史记作 τ i ∈ T ≡ ( Z × U ) ∗ \tau^i \in T ≡ (Z × U )^* τiT(Z×U)。我们用 u − i u^{-i} ui 表示除 i i i 外所有智能体的动作,策略 π − i π^{-i} πi 亦如此。策略的价值被定义为 :
V π = E π , ρ [ ∑ t = 0 ∞ γ t R τ ( s t ) ] V^π = E_{π,ρ} [∑_{t=0}^∞ γ^t R_{\tau}(s_t)] Vπ=Eπ,ρ[t=0γtRτ(st)]同样地,在给定策略 π π π 的情况下,联合动作的价值函数定义为: [ Q π ( s t , u t ) = E π [ ∑ k = 0 ∞ γ k R ( s t + k ) ∣ s t , u t ] [Q^π (s_t, u_t) = E_π [∑_{k=0}^∞ γ^k R(s_{t+k})|s_t, u_t] [Qπ(st,ut)=Eπ[k=0γkR(st+k)st,ut]

我们的目标是找到与最优值函数 V ∗ V^* V 对应的最优策略 π ∗ π^* π

具有智能体能力的多智能强化学习

现在扩展多智能强化学习问题设定,假设智能体可以具有不同的能力。为此,假设任务中的每个智能体可以用一个 d d d 维的能力向量 c ∈ C c \in C cC 表示,该向量决定了它在奖励和转移动态中的贡献(从而也决定了其策略,记作 π i ( ⋅ ; c ) π_i(·; c) πi(⋅;c))。不失一般性,假设 C ⊆ Δ d − 1 C ⊆ \Delta^{d-1} CΔd1(即 d − 1 d - 1 d1 维单纯形)。

接下来,我们假设存在一个未知的概率分布 M : C n → R + M : C^n \to \mathbb{R}^+ M:CnR+,其支集为 S u p ( M ) Sup(M) Sup(M),位于联合能力空间 C n C^n Cn 的一个子集上。从 M M M 中采样的任何 T T T 都可视为一个能力向量元组 T = ( c i ) i = 1 n T = (c_i)^n_{i=1} T=(ci)i=1n,每个智能体对应一个能力向量。我们将 T T T 增加到 D e c − P O M D P Dec-POMDP DecPOMDP 中,得到 G = < S , U , P T , R T , Z , O , n , ρ , γ , T > G = <S, U, P_T, R_T, Z, O, n, ρ, γ, T> G=<S,U,PT,RT,Z,O,n,ρ,γ,T>称之为多智能强化学习设置的一个变体。由此, T T T 定义了基础的多智能体马尔可夫决策过程的奖励和转移动态(即 R T ( s ) = < f ( T ) ⋅ s > R_T(s) = <f(T) \cdot s> RT(s)=<f(T)s>,其中 < ⋅ > <\cdot> <> 表示点积, f : C n → R k f : C^n → \mathbb{R}^k f:CnRk。转移动态也类似)。

我们的目标是找到算法,使其在 M M M中少量采样的变体上进行训练时,能够很好地泛化到 M M M 中未见的团队变体上,即,我们希望最大化团队变体分布的期望值:

max ⁡ π E T ∼ M [ E π ( ⋅ ; T ) , P T , ρ [ ∑ t = 0 ∞ γ t R T ( s t ) ] ] (1) \max_{\pi} E_{T ∼ M} \left[ E_{π(·;T), P_T, ρ} \left[ \sum_{t=0}^{\infty} \gamma^t R_T(s_t) \right] \right]\tag{1} πmaxETM[Eπ(⋅;T),PT,ρ[t=0γtRT(st)]](1)

其中 π = { π i } i = 1 n \pi = \{π_i\}_{i=1}^n π={πi}i=1n 是由 n n n 个智能体组成的团队。

这里面临的挑战主要有两个方面。首先,智能体对这些能力向量的含义没有任何先前知识,因此需要学习它们的语义(也称为“基础对接”)。其次,在智能体无法观察到能力向量(包括可能无法看到自己的能力向量)的情况下,它们必须推测并学习如何与其他智能体共享这些信息的方式,以便能够在零样本情况下进行泛化。

S F SF SF(Successor Features framework,后继特征)框架假设马尔可夫决策过程中的奖励可以表示为 r ( s ) = ϕ ( s ) ⊤ w r(s) = \phi(s)^{\top} w r(s)=ϕ(s)w,其中 ϕ ( s ) ∈ R d \phi(s) \in \mathbb{R}^d ϕ(s)Rd 是状态 s s s 的特征, w ∈ R d w \in \mathbb{R}^d wRd 是权重。当对 ϕ ( s ) \phi(s) ϕ(s) 不作任何假设时,任何奖励函数都可以通过这种表示方式恢复。价值函数可以表示为:
V π ( s ) = E π [ r t + 1 + γ r t + 2 + ⋯ ∣ S t = s ] = E π [ ϕ t + 1 ⊤ w + γ ϕ t + 2 ⊤ w + ⋯ ∣ S t = s ] = ψ π ( s ) ⊤ w . \begin{align*} V^{\pi}(s) &= \mathbb{E}^{\pi} \left[ r_{t+1} + \gamma r_{t+2} + \dots \mid S_t = s \right] \\ &= \mathbb{E}^{\pi} \left[ \phi_{t+1}^{\top} w + \gamma \phi_{t+2}^{\top} w + \dots \mid S_t = s \right] \\ &= \psi^{\pi}(s)^{\top} w. \end{align*} Vπ(s)=Eπ[rt+1+γrt+2+St=s]=Eπ[ϕt+1w+γϕt+2w+St=s]=ψπ(s)w.

这里, ψ π ( s ) \psi^{\pi}(s) ψπ(s) 被称为在策略 π \pi π 下状态 s s s 的后继特征。后继特征 ψ π ( s ) \psi^{\pi}(s) ψπ(s) 的第 i i i 个分量表示在状态 s s s 下遵循策略 π \pi π 时,特征 ϕ i \phi_i ϕi 的期望折扣和。

分析

我们主要分析在分布 M M M 下的泛化性质。以多智能体马尔可夫决策过程为例,假设奖励和转移线性依赖于智能体的能力 c i c_i ci
R T ( s ) = ∑ i = 1 n a i ⟨ c i ⋅ W R s ⟩ (2) R_T(s) = \sum_{i=1}^n a_i \langle c_i \cdot W_R s \rangle\tag{2} RT(s)=i=1naiciWRs(2)

P T ( s ′ ∣ s , u ) = ∑ i = 1 n a i ⟨ c i ⋅ W P ( s ′ , s , u ) ⟩ (3) P_T(s'|s, u) = \sum_{i=1}^n a_i \langle c_i \cdot W_P(s', s, u) \rangle\tag{3} PT(ss,u)=i=1naiciWP(s,s,u)⟩(3)

其中, W R ∈ R d × k W_R \in \mathbb{R}^{d \times k} WRRd×k 是多智能体马尔科夫决策过程的奖励核,定义了奖励对每个能力分量的依赖性; W P : S × U × S × { 1.. d } → [ 0 , 1 ] W_P : S \times U \times S \times \{1..d\} → [0, 1] WP:S×U×S×{1..d}[0,1] 定义了多智能体马尔科夫决策过程的转移核,使得 P j ( ⋅ ∣ s , u ) : = W P ( s , u , j ) ∈ Δ ∣ S ∣ − 1 P_j(·|s, u) := W_P(s, u, j) \in \Delta_{|S|-1} Pj(s,u):=WP(s,u,j)ΔS1 j ∈ { 1.. d } j \in \{1..d\} j{1..d} 给出了由能力的第 j j j 个分量所引导的下一个状态分布,并且智能体 i i i 转移到 s ′ s' s 状态的倾向(未加权)由
⟨ c i ⋅ [ P 1 ( s ′ ∣ s , u ) … P d ( s ′ ∣ s , u ) ] ⟩ = ⟨ c i ⋅ W P ( s ′ , s , u ) ⟩ \langle c_i \cdot [P_1(s'|s, u) \dots P_d(s'|s, u)] \rangle = \langle c_i \cdot W_P(s', s, u) \rangle ci[P1(ss,u)Pd(ss,u)]⟩=ciWP(s,s,u)⟩给出。最后, ( a i ) i = 1 n ∈ Δ n − 1 (a_i)_{i=1}^n \in \Delta_{n-1} (ai)i=1nΔn1 是智能体的影响权重,量化了智能体 i i i 在确定奖励和转移中的影响。在该线性设置下,给定策略 π \pi π 和能力 T T T,价值函数满足
V T π = ∑ i = 1 n a i ⟨ c i ⋅ W R μ T π ⟩ V^{\pi}_T = \sum_{i=1}^n a_i \langle c_i \cdot W_R \mu^{\pi}_T \rangle VTπ=i=1naiciWRμTπ其中 μ T π = E ρ , P T , π [ γ t s t ] \mu^{\pi}_T = \mathbb{E}_{\rho, P_T, \pi} [\gamma^t s_t] μTπ=Eρ,PT,π[γtst] 是期望的折扣状态特征。同样地,对于给定状态 s s s,我们有
V T π ( s ) = ∑ i = 1 n a i ⟨ c i T W R ⋅ μ T π ( s ) ⟩ V^{\pi}_T(s) = \sum_{i=1}^n a_i \langle c_i^T W_R \cdot \mu^{\pi}_T(s) \rangle VTπ(s)=i=1naiciTWRμTπ(s)⟩其中 μ T π = E P T , π [ γ t s t ∣ s 0 = s ] \mu^{\pi}_T = \mathbb{E}_{P_T, \pi} [\gamma^t s_t | s_0 = s] μTπ=EPT,π[γtsts0=s]

该线性动态公式将后继特征公式推广到了多智能体系统设置中。

我们现在给出关于不同团队组合的最优值之间差异的第一个结果:

定理 1(团队组合之间的泛化)
设团队组合 T x , T y ∈ C n T^x, T^y \in C^n Tx,TyCn 的影响权重分别为 a x , a y ∈ Δ n − 1 a^x, a^y \in \Delta_{n-1} ax,ayΔn1 s max = max ⁡ s ∣ ∣ W R s ∣ ∣ 1 s_{\text{max}} = \max_s ||W_R s||_1 smax=maxs∣∣WRs1 V mid = 1 2 max ⁡ s V T y ∗ ( s ) V_{\text{mid}} = \frac{1}{2} \max_s V^*_{T^y}(s) Vmid=21maxsVTy(s),则有:

∣ V T x ∗ − V T y ∗ ∣ ≤ s max + γ d V mid γ ( 1 − γ ) Ψ |V^*_{T^x} - V^*_{T^y}| \leq \frac{s_{\text{max}} + \gamma d V_{\text{mid}}}{\gamma(1 - \gamma)} \Psi VTxVTyγ(1γ)smax+γdVmidΨ

其中

Ψ = ∣ ∑ i a i x ( T i x − T i y ) ∣ ∞ + ∣ ∑ i ( a i x − a i y ) T i y ∣ ∞ (4) \Psi = \left|\sum_i a^x_i (T^x_i - T^y_i) \right|_\infty + \left| \sum_i (a^x_i - a^y_i) T^y_i \right|_\infty\tag{4} Ψ= iaix(TixTiy) + i(aixaiy)Tiy (4)

注:对于 γ ∈ ( 0 , 5 − 1 2 ) \gamma \in (0, \frac{\sqrt{5} - 1}{2}) γ(0,25 1),我们可以将 1 γ ( 1 − γ ) \frac{1}{\gamma(1 - \gamma)} γ(1γ)1 替换为 1 + γ 1 − γ \frac{1 + \gamma}{1 - \gamma} 1γ1+γ

定理 1 提供了一个有趣的分解,用于给出两种团队组合之间最优值差异的上界。右侧括号中的第一项表示仅由于替换旧能力为新能力而产生的贡献。第二项表示因智能体对 MMDP 动态影响的变化而产生的贡献。

推论 1.1(由于智能体替换导致的最优值变化)
T ⊂ C n \mathcal{T} \subset C^n TCn 为具有影响权重 a ∈ Δ n − 1 a \in \Delta_{n-1} aΔn1 的团队组合。如果将智能体 i i i 替换为智能体 i ′ i' i, 且保持 a i a_i ai 不变,并满足
∣ T i ′ − T i ∣ ∞ ≤ ϵ C , |T'_i - T_i|_\infty \leq \epsilon_C, TiTiϵC,
那么新团队 ( T ′ \mathcal{T}' T) 的最优值满足:
∣ V T ′ ∗ − V T ∗ ∣ ≤ s max + γ d V mid γ ( 1 − γ ) ϵ C a i . |V^*_{\mathcal{T}'} - V^*_{\mathcal{T}}| \leq \frac{s_{\text{max}} + \gamma dV_{\text{mid}}}{\gamma (1 - \gamma)} \epsilon_C a_i. VTVTγ(1γ)smax+γdVmidϵCai.

为了方便描述,我们固定影响权重 a a a,并在联合能力空间上定义一个度量:
d a ( T x , T y ) = ∣ ∑ i a i T i x − T i y ∣ ∞ . d_a(\mathcal{T}^x, \mathcal{T}^y) = | \sum_i a_iT^x_i - T^y_i|_\infty. da(Tx,Ty)=iaiTixTiy.

将这一度量推广,取距离的下确界定义集合之间的距离:
d a ( M x , M y ) ≜ inf ⁡ T x ∈ M x , T y ∈ M y d a ( T x , T y ) . d_a(\mathcal{M}_x, \mathcal{M}_y) \triangleq \inf_{\mathcal{T}^x \in \mathcal{M}_x, \mathcal{T}^y \in \mathcal{M}_y} d_a(\mathcal{T}^x, \mathcal{T}^y). da(Mx,My)TxMx,TyMyinfda(Tx,Ty).

定义 1(绝对预言机)
π M ∗ \pi^*_{\mathcal{M}} πM 为优化公式 (1) 的预言机策略,即 π M ∗ \pi^*_{\mathcal{M}} πM 是一个多路复用策略,针对给定的团队组成 T \mathcal{T} T,其行为与针对 T j \mathcal{T}^j Tj 的最优策略完全一致,其中:
T j ∈ arg ⁡ min ⁡ T l ∈ Sup ( M ) d a ( T l , T ) . \mathcal{T}^j \in \arg \min_{\mathcal{T}^l \in \text{Sup}(\mathcal{M})} d_a(\mathcal{T}^l, \mathcal{T}). TjargTlSup(M)minda(Tl,T).

我们接下来回答一个问题:当智能体仅在特定能力上训练时,学习到的策略在潜在未知能力上是否可以使用(例如,由于硬件组件的更改)。

定理 2(最优策略的迁移)
T x , T y ∈ C n \mathcal{T}^x, \mathcal{T}^y \in C^n Tx,TyCn a x , a y ∈ Δ n − 1 a^x, a^y \in \Delta_{n-1} ax,ayΔn1
s max ⁡ = max ⁡ s ∥ W R s ∥ 1 , V mid = 1 2 max ⁡ s V T y ∗ ( s ) . s_{\max} = \max_s \| W R s \|_1, \quad V_{\text{mid}} = \frac{1}{2} \max_s V^*_{\mathcal{T}^y}(s). smax=smaxWRs1,Vmid=21smaxVTy(s).
π y \pi^y πy 为具有能力 T y \mathcal{T}^y Ty 和影响权重 a y a^y ay 的代理团队的最优策略。那么:
V T x ∗ − V π T x ∗ ∗ ≤ 2 s max ⁡ + γ V mid γ ( 1 − γ ) Ψ , V^*_{\mathcal{T}^x} - V^*_{\pi^*_{\mathcal{T}^x}} \leq 2 \frac{s_{\max} + \gamma V_{\text{mid}}}{\gamma (1 - \gamma)} \Psi, VTxVπTx2γ(1γ)smax+γVmidΨ,
其中 Ψ \Psi Ψ 在公式 (4) 中定义。

推论 2.1(分布外性能)
T ∉ Sup ( M ) \mathcal{T} \notin \text{Sup}(\mathcal{M}) T/Sup(M) 为分布外任务,那么绝对预言机策略在 T \mathcal{T} T 上的性能满足:
V T ∗ − V π T ∗ ∗ ≤ 2 s max ⁡ + γ V mid γ ( 1 − γ ) d a ( T , Sup ( M ) ) . V^*_{\mathcal{T}} - V^*_{\pi^*_{\mathcal{T}}} \leq 2 \frac{s_{\max} + \gamma V_{\text{mid}}}{\gamma (1 - \gamma)} d_a(\mathcal{T}, \text{Sup}(\mathcal{M})). VTVπT2γ(1γ)smax+γVmidda(T,Sup(M)).

我们接下来讨论团队组成发生变化时的情形。

定理 3(人口减少界限)
对于团队组成 T ∈ C n \mathcal{T} \in C^n TCn 和影响权重 a ∈ Δ n − 1 a \in \Delta_{n-1} aΔn1,若将代理 n n n 移除,并对影响权重重新归一化,则对于剩余团队 T − ≜ ( T ) i n − 1 \mathcal{T}^- \triangleq (\mathcal{T})^{n-1}_i T(T)in1,有:
∣ V T − ∗ − V T ∗ ∣ ≤ a n ( s max ⁡ + γ d V mid ) γ ( 1 − γ ) ∣ ∑ i = 1 n − 1 a i T i 1 − a n − T n ∣ ∞ . |V^*_{\mathcal{T}^-} - V^*_{\mathcal{T}}| \leq \frac{a_n(s_{\max} + \gamma d V_{\text{mid}})}{\gamma(1 - \gamma)} \left| \sum_{i=1}^{n-1} \frac{a_i \mathcal{T}_i}{1 - a_n} - \mathcal{T}_n \right|_\infty. VTVTγ(1γ)an(smax+γdVmid) i=1n11anaiTiTn .

∑ i = 1 n − 1 a i T i 1 − a n = T n \sum_{i=1}^{n-1} \frac{a_i \mathcal{T}_i}{1 - a_n} = \mathcal{T}_n i=1n11anaiTi=Tn 时,线性动力学模型中的特例可以解释为,如果团队中其他代理可以有效替代代理 n n n,则代理 n n n 在原则上可以被认为是冗余的。事实上,只要能力 T n \mathcal{T}_n Tn 可以通过能力 T i \mathcal{T}_i Ti i ∈ { 1 , … , n − 1 } i \in \{1, \dots, n-1\} i{1,,n1})的凸组合形成,上述情况就成立。然而,后一种情况需要使用相应的凸系数,而不是重新归一化。类似的界限也可以容易地构造出来,用于重新利用在移除代理后的策略,并沿着定理 2 的思路得到相应的迁移界限。

推论 3.1(人口增加界限)
对于团队组成 T ∈ C n \mathcal{T} \in C^n TCn 和影响权重 a ∈ Δ n − 1 a \in \Delta_{n-1} aΔn1,若添加智能体 n + 1 n+1 n+1,其能力为 T n + 1 \mathcal{T}_{n+1} Tn+1 且权重为 a n + 1 a_{n+1} an+1(其他权重按 λ = 1 − a n + 1 \lambda = 1 - a_{n+1} λ=1an+1 缩放),则对于新团队 T + ≜ ( T 1 , … , T n , T n + 1 ) \mathcal{T}^+ \triangleq (\mathcal{T}_1, \dots, \mathcal{T}_n, \mathcal{T}_{n+1}) T+(T1,,Tn,Tn+1),有:
∣ V T + ∗ − V T ∗ ∣ ≤ a n + 1 ( s max ⁡ + γ d V mid ) γ ( 1 − γ ) ∣ ∑ i = 1 n a i T i − T n + 1 ∣ ∞ . |V^*_{\mathcal{T}^+} - V^*_{\mathcal{T}}| \leq \frac{a_{n+1}(s_{\max} + \gamma d V_{\text{mid}})}{\gamma(1 - \gamma)} \left| \sum_{i=1}^n a_i \mathcal{T}_i - \mathcal{T}_{n+1} \right|_\infty. VT+VTγ(1γ)an+1(smax+γdVmid) i=1naiTiTn+1 .

我们接下来扩展定理 1 中的泛化界限,包含奖励函数和转移动态不是严格线性而是近似线性(分别具有偏差 ϵ ^ R , ϵ ^ P \hat{\epsilon}_R, \hat{\epsilon}_P ϵ^R,ϵ^P)的场景。

定理 4(近似 ϵ ^ R , ϵ ^ P \hat{\epsilon}_R, \hat{\epsilon}_P ϵ^R,ϵ^P 动态)
T x , T y ∈ C n \mathcal{T}^x, \mathcal{T}^y \in C^n Tx,TyCn a x , a y ∈ Δ n − 1 a^x, a^y \in \Delta_{n-1} ax,ayΔn1,动态仅为近似线性,即:
∣ R T ( s ) − ∑ i = 1 n a i ( c i ⋅ W R s ) ∣ ≤ ϵ ^ R \left| R_{\mathcal{T}}(s) - \sum_{i=1}^n a_i (c_i \cdot W R s) \right| \leq \hat{\epsilon}_R RT(s)i=1nai(ciWRs) ϵ^R

∣ P T ( s ′ ∣ s , u ) − ∑ i = 1 n a i ( c i ⋅ W P ( s ′ , s , u ) ) ∣ ≤ ϵ ^ P . \left| P_{\mathcal{T}}(s' | s, u) - \sum_{i=1}^n a_i (c_i \cdot W P(s', s, u)) \right| \leq \hat{\epsilon}_P. PT(ss,u)i=1nai(ciWP(s,s,u)) ϵ^P.
则有:
∣ V T x ∗ − V T y ∗ ∣ ≤ s max ⁡ + γ d V mid γ ( 1 − γ ) Ψ + 2 ( ϵ ^ R + γ ϵ ^ P V mid ) γ ( 1 − γ ) , |V^*_{\mathcal{T}^x} - V^*_{\mathcal{T}^y}| \leq \frac{s_{\max} + \gamma d V_{\text{mid}}}{\gamma(1-\gamma)} \Psi + \frac{2 (\hat{\epsilon}_R + \gamma \hat{\epsilon}_P V_{\text{mid}})}{\gamma(1-\gamma)}, VTxVTyγ(1γ)smax+γdVmidΨ+γ(1γ)2(ϵ^R+γϵ^PVmid),
其中 Ψ \Psi Ψ 在公式 (4) 中定义。

接下来,我们考虑一种场景:智能体的能力不能直接观察,而是通过近似方法推断的。这种推断会引入一些估计误差(例如,由于观测中的噪声、不精确的显式或隐式交流协议等)。

定理 5(能力估计误差)
对于团队组成 T ∈ C n \mathcal{T} \in C^n TCn 和影响权重 a ∈ Δ n − 1 a \in \Delta_{n-1} aΔn1,如果智能体能力被不准确地推断为 T ^ \hat{\mathcal{T}} T^,且满足:
max ⁡ i ∣ T i − T ^ i ∣ ∞ ≤ ϵ T , \max_i |\mathcal{T}_i - \hat{\mathcal{T}}_i|_\infty \leq \epsilon_{\mathcal{T}}, imaxTiT^iϵT,
并且智能体学习到了不精确的策略 π T ^ ∗ \pi^*_{\hat{\mathcal{T}}} πT^,那么:
∣ V T ∗ − V π T ^ ∗ ∗ ∣ ≤ 2 ϵ T ( s max ⁡ + γ d V mid ) γ ( 1 − γ ) , |V^*_{\mathcal{T}} - V^*_{\pi^*_{\hat{\mathcal{T}}}}| \leq \frac{2 \epsilon_{\mathcal{T}} (s_{\max} + \gamma d V_{\text{mid}})}{\gamma(1 - \gamma)}, VTVπT^γ(1γ)2ϵT(smax+γdVmid),
其中 V mid = 1 2 max ⁡ s V T ^ ∗ ( s ) V_{\text{mid}} = \frac{1}{2} \max_s V^*_{\hat{\mathcal{T}}}(s) Vmid=21maxsVT^(s)

我们注意到,所有结果都可以扩展到奖励 R T ( s ) = ⟨ f ( T ) ⋅ W R s ⟩ R_{\mathcal{T}}(s) = \langle f(\mathcal{T}) \cdot W_R s \rangle RT(s)=f(T)WRs 的情况,其中 f ( T ) f(\mathcal{T}) f(T) 不再像公式 (2) 那样在能力上严格线性,而是对每个 i ∈ A i \in A iA 满足 Lipschitz 连续性,且系数为 L i L_i Li。例如,定理 1 可以改写为:

定理 6
若奖励 L i L_i Li 在能力上关于 ∥ ⋅ ∥ ∞ \|\cdot\|_\infty 范数是 Lipschitz 连续的,则团队组成 T x \mathcal{T}^x Tx T y \mathcal{T}^y Ty 的最优值差满足:
∣ V T x ∗ − V T y ∗ ∣ ≤ s max ⁡ ∑ i = 1 n L i ∣ T i x − T i y ∣ ∞ γ ( 1 − γ ) . |V^*_{\mathcal{T}^x} - V^*_{\mathcal{T}^y}| \leq \frac{s_{\max} \sum_{i=1}^n L_i |\mathcal{T}^x_i - \mathcal{T}^y_i|_\infty}{\gamma(1 - \gamma)}. VTxVTyγ(1γ)smaxi=1nLiTixTiy.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值