对多智能体强化学习算法MADDPG的理解

MADDPG的架构

MADDPG采用的是“中心化训练+去中心化决策”的架构,是一种Actor-Critic方法。其中每个智能体都有一个价值网络和策略网络。

价值网络和策略网络
  1. 第i号价值网络(Critic)
    输入:全局状态s、所有智能体的动作a(因为需要结合队友、对手的观测及动作才知道自身当前的动作好不好)
    输出:一个实数(表示基于全局状态s,第i号智能体执行动作ai的好坏程度,可以指导第i号策略网络作出改进)
    训练方式:TD算法
    训练第i号价值网络需要用四元组<st、at、rt、st+1>,具体来说用到了下一时刻的全局状态St+1,所有智能体的策略网络,t时刻的奖励以及第i号智能体的价值网络.

  2. 第i号策略网络(Actor)
    输入:第i号智能体的观测oi
    输出:第i号智能体的动作ai
    训练方式:DPG
    训练第i号策略网络需要用四元组<st、at、rt、st+1>,具体来说用到了全局状态St,所有智能体的策略网络以及第i号价值网络.

所有智能体的策略网络与第i号智能体的价值网络
在这里插入图片描述

  • 3
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值