王树森强化学习笔记——多智能体强化学习

最新推荐文章于 2024-08-13 09:46:33 发布

xianyuqishi

最新推荐文章于 2024-08-13 09:46:33 发布

阅读量3.2k

点赞数 10

文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/xianyuqishi/article/details/126839813

版权

本文详细介绍了多智能体强化学习的四种常见设定：完全合作、完全竞争、混合合作竞争和自我利益。每个智能体的动作、奖励和状态转移函数在多智能体系统中起关键作用。此外，探讨了多智能体系统中的策略网络、状态价值函数以及Nash均衡等概念。训练多智能体强化学习的三种架构——去中心化、完全中心化和中心化训练去中心化执行，各有优缺点。最后，提到了局部观测和完全观测的情况，并分析了参数共享的考量。

摘要由CSDN通过智能技术生成

多智能体强化学习

想要了解更多强化学习的内容，推荐观看王树森教授的教学视频
深度强化学习（王树森）

设定

在之前的学习当中，我们讨论的都是单个智能体如何进行决策，然而现实中还存在需要同时控制多个智能体进行决策的复杂情况，我们称之为多智能体强化学习。下面介绍多智能体系统的常见四种设定。

Fully cooperative
- 完全合作关系，多个智能体获得的利益一致，只有当多个智能体通力合作才能获得更好的奖励，即它们的目标一致，例如：控制多个机械臂完成流水线工作。
Fully competitive
- 完全竞争关系，一方智能体的奖励会是另一方智能体的损失，即两者的利益关系是完全相反的。例如：
  - 0和博弈：两个机器人进行格斗，一方获胜另一方就一定会输。
  - 非0和博弈：捕猎也是完全竞争关系，但两者的利益是不对等的，猎食者成功捕食可以饱餐一顿，而被捕食者则失去生命，显然被捕食者损害的利益更大。
Mixed-cooperative-competitive
- 即有合作也有竞争关系，其中一部分智能体直接存在竞争关系，另一部分智能体又存在合作关系。例如，多人足球，两支球队是竞争关系，但是球队之间球员是合作关系。
Self-interested
- 利己主义，只关心使自己利益最大化，对其他智能体不存在纯粹的竞争和合作关系，例如股票系统中的投资方，每个投资人都想让自身利益最大化，但是他们的行为会影响其他投资方的利益变化。

术语

State，Action，State Transition

多智能体系统一共包含n个智能体。
S代表观测到系统的状态
智能体的动作记为 $A^i$ ，其中 $i$ 代表智能体的编号
状态转移函数：
$p(s'|s,a^1,...,a^n)= P(S'=s'|S=s,A^1=a^1,...,A^n=a^n)$
下一个状态S’取决于所有agent的动作。

rewards

每个智能体获得的奖励记作 $R^i$ ，其中 $i$ 代表第 $i$ 个智能体。
完全合作关系中每个agent获得的奖励一样，即 $R^1=R^2=....=R^n$ .
完全竞争关系中，智能体之间的奖励存在负相关关系，如 $R^1 \propto -R^2$
一个智能体获得的奖励不仅取决于他自身的动作还取决于其他智能体的动作。

returns

第 $i$ 个智能体在t时刻获得的折扣回报可以写成：
$U^i_t=R^i_t+\gamma *R^i_{t+1}+ \gamma^2*R^i_{t+2}+.....$

policy network

每一个agent都有自己的策略网络 $\pi(a^i|s;\theta^i)$
有些系统中agent的策略网络是可以交换的，例如在无人驾驶当中，每一辆车的policy network可以是一样的。
大部分系统中agent的策略网络是不可以交换的，例如在足球比赛当中，每个角色承担的作用不同，有的是守门员，有的是进攻主力，所以不能进行交换。

state-value function

第 $i$ 个智能体的状态价值函数:
$V^i(s_t;\theta^1,...,\theta^n)=E[U^i_t|S_t=s_t]$
智能体的状态价值函数 $V^i$ 不仅依赖于自身的参数 $\theta^i$ ,也依赖于其他所有agent的参数。
- 例如，在足球比赛当中，如果其他队员的策略都没有发生改变，只有一名前锋的策略发生了改变，并且变的更好，那么其所在同一球队的其他队友获胜的概率也会变大，另一球队的队员获胜的价值会变小。
- 同理，在多智能体系统当中，任何一个智能体改变了他的策略，其他智能体的状态价值都会发生改变，说明 $V^i$ 不仅依赖于自身的策略网络，也依赖于其他所有agent的策略网络。

收敛问题

对于单个智能体的收敛问题最终可以归结为求状态价值函数的最大化，对于多个智能体该如何判断其收敛呢？

Nash Equilibrium

当所有的agent都保持自身的策略不变时，改变其中的一个agent的策略也不能让其获得更好的回报期望
每一个agent都在应对其他agent时采取了最优的方式
如果所有的agent的策略都是理性的，在Nash Equilibrium的情况下，任何agent都没有改变自身策略的动机，因为采取改变自身策略的行为无法获得更高的价值和收益。

我们把满足以上条件的情形称为多智能体系统已达到收敛。

Traing

Difficulty of MARL

多个agent会使强化学习变得更难学习，原因是每个agent之间不在是独立的，他们之间的决策会影响到其他所有agent的策略。

举个例子：

我们将single agent策略梯度算法直接应用到多智能体系统当中，如下图
在这里插入图片描述
每个agent独立与环境进行交互，获得状态s以及获得的奖励r，agent根据状态s和奖励r独立的做出决策a，并且每个agent独立使用状态s，奖励r计算策略梯度，更新自己的策略网络。

自始至终，每个agent之间不进行通信，和single agent 的做法完全一致。

对于第 $i$ 个agent，将其策略网络记为： $\pi(a^i|s;\theta^i)$
对于第 $i$ 个agent，将其状态价值函数记作： $V^i(s;\theta^1,...,\theta^n)$
对第 $i$ 个agent的状态价值函数做期望，得到目标函数： $j^i(\theta^1,...,\theta^n)=E_s(V^i(s;\theta^1,...,\theta^n))$
对于每个agent，想要获得更好的策略，就需要让目标函数 $j^i$ 越大越好，即：
$max_a(j^i(\theta^1,...,\theta^n))$
前面提到，每个agent的状态价值函数 $V^i$ 不仅依赖于自身的参数 $\theta^i$ ,也依赖于其他所有agent的参数，由于每次更新都会更新agent的参数，所以会导致其他agent的状态价值函数 $V^i$ 发生变化，进而导致目标函数 $j^i$ 发生变化，这时候其他的agent为了让 $j^i$ 最大化，就会不断改变更新自身的参数，最终可能导致agent永远无法完成收敛。

训练MARL的三种架构

常见的三种训练多智能体强化学习的架构：

Fully decentralized：去中心化架构，所有的agent使用自身观察到的环境状态以及奖励来学习自身的策略，agent之间不进行交流。
Fully centralized：完全中心化，所有的agent只负责将观察到的环境状态以及奖励发送到中央控制器，并完全由中央控制器进行控制自身的决策。
Centralized training with decentralized execution：中心化训练去中心化执行，中央控制器只负责对策略的训练，决策由agent进行执行。

Partial Observations(局部观测)

一个agent往往不能知道全局的观测 $s$ 是怎样的，它只能观测到全局的一部分，记为： $o^i$
$o^i \ne s$

Full observation

完全观测是指所有的agent都能看到全局的状态s，即 $o^i =...=o^n= s$

Fully decentralized

去中心化架构我们之前提到过，即每个agent独立与环境进行交互，获得状态s以及获得的奖励r，agent根据状态s和奖励r独立的做出决策a，并且每个agent独立使用状态s，奖励r计算策略梯度，更新自己的策略网络。
在这里插入图片描述
去中性化架构中，每个agent的训练都是采用single agent的方法进行训练，前面分析过这样做训练效果可能会很差，可能导致所有agent都无法收敛。

Fully centralized

完全中心化架构，每个agent只负责将观测值发送给中央控制器，agent不包含策略网络，中央控制器负责对所有agent的策略进行学习以及决策，因此中央控制器中包括n个agent的策略网络 $\pi(a^i|s,o^1,...,o^n;\theta^i)$ ,如下图。
在这里插入图片描述
下面简单介绍一下centralized actor-critic method：

将所有agent所做的动作拼接在一起记为 $a=[a^1,a^2,...,a^n]$
将所有agent的观测值拼接在一起记为 $o=[o^1,o^2,...,o^n]$
中央控制器知道所有的 $a, o$ 以及 $re w a r d$ 。
中央控制器保护n个策略网络以及n个价值网络。
- 控制第i个agent的策略网络记为 $\pi(a^i|0,\theta^i)$
- 第i个agent的价值网络记为 $q(o,a;w^i)$
训练：训练由中央控制器负责
- 中央控制器知道所有agent的观测值以及所有的奖励
- 中央控制器通过策略梯度来训练策略网络 $\pi(a^i|o;\theta^i)$
- 中央控制器使用TD算法来更新价值网络 $q(a,0;w^i)$
执行：执行也是由中央控制器负责
- 中央控制器根据所有agent发送的观测值 $o$ ,将 $o$ 输入对应的策略网络，得到决策 $a$ ,将决策发送到对应的agent当中进行执行。

shortcoming：slow during execution

中心化的架构最大的缺点就是执行的速度太慢，agent本身没有策略网络，中央控制器需要收到所有agent的观测值之后才能进行决策，并且还需要将决策下发到所有的agent，其中agent的通信和同步需要花费很多时间。
中心化的架构无法满足实时同步决策的需求，总是会“慢半拍”。

Centralized training with decentralized execution

中心化训练去中心化执行架构，中央控制器只负责对策略的训练，训练完成之后中央控制器就不起作用了，决策由agent进行执行。

在该架构中，每个agent包含自身的决策网络 $\pi(a^i|o^i;\theta^i)$
中央控制器包含所有agent的价值网络（n个），记为 $q(o,a;w^i)$
中央训练：训练过程中，中央控制器知道所有agent的观测，动作以及奖励，中央控制器负责学习agent的价值网络
去中心化执行：执行过程中，中央控制器不起作用，由agent自行决策。

Centralized training

在这里插入图片描述

如上图，中央控制器采用TD算法训练第i个agent的critic网络 $q(o,a;w^i)$ ，因此需要agent进行通信将以下信息发送给中央控制器：
- 所有的agent执行的动作： $a=[a^1,...,a^n]$
- agent的观测值： $o=[o^1,...,o^n]$
- 第i个agent获得的奖励 $r^i$
如上图，agent负责训练自身的actor网络，agent采用策略梯度来更新参数，因此需要中央控制器将 $q^i$ 发送给第i个agent。

参数共享

在多智能体系统中，agent的策略网络和价值网络的结构可以是相同的，但参数是不同的，参数共享的含义就是两个agent的网络参数也相同，是否需要进行参数共享呢？这个问题需要根据具体的问题来考虑，例如在足球比赛当中，不同运动员的职能是不同的，例如有些负责进攻，有些负责防守，因此不能进行参数共享，而在包含多个无人驾驶汽车的多智能体系统中，每辆无人车的参数可以共享，因为它们之间的职能是一样的。

小结

三种架构的多智能体AC系统的对比如下图：
在这里插入图片描述

xianyuqishi

关注

10
点赞
踩
52

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫