[基础论文阅读]MAADDPG: Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments
论文核心:MADDPG算法
文章链接:https://proceedings.neurips.cc/paper/2017/file/68a9750337a418a86fe06c1991a1d64c-Paper.pdf
文章来源:NeurIPS 2017
参考了知乎答主:https://zhuanlan.zhihu.com/p/436281028
摘要
MADDPG是基于actor-critic的多智能体强化学习算法,采用CTDE框架。既可以应用于包含通信信道的协作场景,也可以应用于智能体之间只存在物理交互的竞争性场景中。文章还引入了一种训练方案,该方案利用针对每个智能体的一组策略,从而产生更强大的多智能体策略。
研究点:研究协作或协作竞争混合场景下的MADRL算法
场景设定:部分可观、完全协作(共用同一奖励)/竞争(目标相互冲突)
训练方法:集中训练、分布式执行
学习到的是连续策略(文章说)
简介
多智能体的应用有: multi-robot control, the discovery of communication and language, multiplayer games, the analysis of social dilemmas, 或者分层强化学习中的多个分层可以视为多智能体。
MADDPG基于actor-critic的简单扩展,其中 critic 增加了有关其他智能体策略的额外信息,而 actor 只能访问本地信息。 训练完成后,在执行阶段只使用local actor以分散的方式行动。
MADDPG的优势:①在执行时仅使用本地信息(即他们自己的观察)的学习策略,②不假设环境或智能体之间通信方法的任何特定结构,③不仅适用于合作交互,而且适用于涉及物理和通信行为的竞争或混合交互。
由于centralized critic明确地使用了其他智能体的策略,我们表明智能体可以在线学习其他智能体的近似模型,并在自己的策略学习过程中有效地使用。 通过使用一组策略训练智能体来提高多智能体策略的稳定性,因此需要与各种合作者和竞争者的策略进行稳健的交互。
MADDPG需要对其他智能体的决策过程进行显式建模。通过要求智能体与其他智能体的任何可能策略的集合成功交互,从而提高训练稳定性和训练后后智能体的稳健性。
背景
论文原文自带PG DPG DDPG的简要讲解,所以这里不详述。
Method
multi-agent actor-critic
其中 Q i π ( x , a 1 , . . . , a N ) Q_i^\pi(x,a_1,...,a_N) Qiπ(x,a1,...,aN)是一个centralized action-value function,输入为所有智能体的动作和某些状态信息