[基础论文阅读]Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments

MADDPG是一种多智能体强化学习算法,适用于协作和竞争环境,基于actor-critic框架,通过集中训练、分布式执行的方式学习连续策略。每个智能体学习一组策略,能在线学习其他智能体的模型,增强了策略的稳定性和鲁棒性。
摘要由CSDN通过智能技术生成

[基础论文阅读]MAADDPG: Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments

论文核心:MADDPG算法
文章链接:https://proceedings.neurips.cc/paper/2017/file/68a9750337a418a86fe06c1991a1d64c-Paper.pdf
文章来源:NeurIPS 2017
参考了知乎答主:https://zhuanlan.zhihu.com/p/436281028

摘要

MADDPG是基于actor-critic的多智能体强化学习算法,采用CTDE框架。既可以应用于包含通信信道的协作场景,也可以应用于智能体之间只存在物理交互的竞争性场景中。文章还引入了一种训练方案,该方案利用针对每个智能体的一组策略,从而产生更强大的多智能体策略。

研究点:研究协作或协作竞争混合场景下的MADRL算法
场景设定:部分可观、完全协作(共用同一奖励)/竞争(目标相互冲突)
训练方法:集中训练、分布式执行
学习到的是连续策略(文章说)

简介

多智能体的应用有: multi-robot control, the discovery of communication and language, multiplayer games, the analysis of social dilemmas, 或者分层强化学习中的多个分层可以视为多智能体。
MADDPG基于actor-critic的简单扩展,其中 critic 增加了有关其他智能体策略的额外信息,而 actor 只能访问本地信息。 训练完成后,在执行阶段只使用local actor以分散的方式行动。

MADDPG的优势:①在执行时仅使用本地信息(即他们自己的观察)的学习策略,②不假设环境或智能体之间通信方法的任何特定结构,③不仅适用于合作交互,而且适用于涉及物理和通信行为的竞争或混合交互。

由于centralized critic明确地使用了其他智能体的策略,我们表明智能体可以在线学习其他智能体的近似模型,并在自己的策略学习过程中有效地使用。 通过使用一组策略训练智能体来提高多智能体策略的稳定性,因此需要与各种合作者和竞争者的策略进行稳健的交互。

MADDPG需要对其他智能体的决策过程进行显式建模。通过要求智能体与其他智能体的任何可能策略的集合成功交互,从而提高训练稳定性和训练后后智能体的稳健性。

背景

在这里插入图片描述
论文原文自带PG DPG DDPG的简要讲解,所以这里不详述。

Method

multi-agent actor-critic

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
其中 Q i π ( x , a 1 , . . . , a N ) Q_i^\pi(x,a_1,...,a_N) Qiπ(x,a1,...,aN)是一个centralized action-value function,输入为所有智能体的动作和某些状态信息

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值