[基础论文阅读]Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments

最新推荐文章于 2023-10-15 00:00:47 发布

非著名科研萌新

最新推荐文章于 2023-10-15 00:00:47 发布

阅读量437

点赞数

文章标签：论文阅读

本文链接：https://blog.csdn.net/weixin_47920755/article/details/127878068

版权

MADDPG是一种多智能体强化学习算法，适用于协作和竞争环境，基于actor-critic框架，通过集中训练、分布式执行的方式学习连续策略。每个智能体学习一组策略，能在线学习其他智能体的模型，增强了策略的稳定性和鲁棒性。

摘要由CSDN通过智能技术生成

[基础论文阅读]MAADDPG: Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments

论文核心：MADDPG算法
文章链接：https://proceedings.neurips.cc/paper/2017/file/68a9750337a418a86fe06c1991a1d64c-Paper.pdf
文章来源：NeurIPS 2017
参考了知乎答主：https://zhuanlan.zhihu.com/p/436281028

摘要

MADDPG是基于actor-critic的多智能体强化学习算法，采用CTDE框架。既可以应用于包含通信信道的协作场景，也可以应用于智能体之间只存在物理交互的竞争性场景中。文章还引入了一种训练方案，该方案利用针对每个智能体的一组策略，从而产生更强大的多智能体策略。

研究点：研究协作或协作竞争混合场景下的MADRL算法
场景设定：部分可观、完全协作（共用同一奖励）/竞争（目标相互冲突）
训练方法：集中训练、分布式执行
学习到的是连续策略(文章说)

简介

多智能体的应用有： multi-robot control, the discovery of communication and language, multiplayer games, the analysis of social dilemmas, 或者分层强化学习中的多个分层可以视为多智能体。
MADDPG基于actor-critic的简单扩展，其中 critic 增加了有关其他智能体策略的额外信息，而 actor 只能访问本地信息。训练完成后，在执行阶段只使用local actor以分散的方式行动。

MADDPG的优势：①在执行时仅使用本地信息（即他们自己的观察）的学习策略，②不假设环境或智能体之间通信方法的任何特定结构，③不仅适用于合作交互，而且适用于涉及物理和通信行为的竞争或混合交互。

由于centralized critic明确地使用了其他智能体的策略，我们表明智能体可以在线学习其他智能体的近似模型，并在自己的策略学习过程中有效地使用。通过使用一组策略训练智能体来提高多智能体策略的稳定性，因此需要与各种合作者和竞争者的策略进行稳健的交互。

MADDPG需要对其他智能体的决策过程进行显式建模。通过要求智能体与其他智能体的任何可能策略的集合成功交互，从而提高训练稳定性和训练后后智能体的稳健性。

背景

在这里插入图片描述
论文原文自带PG DPG DDPG的简要讲解，所以这里不详述。

Method

multi-agent actor-critic

在这里插入图片描述

其中 $Q_i^\pi(x,a_1,...,a_N)$ 是一个centralized action-value function，输入为所有智能体的动作和某些状态信息

最低0.47元/天解锁文章

非著名科研萌新

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
[基础论文阅读]Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments

[基础论文阅读]MADDPG ： Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments
复制链接

扫一扫