对多智能体强化学习算法MADDPG的理解

阿豪Smoking hot

已于 2023-02-04 16:48:23 修改

阅读量4.4k

点赞数 3

分类专栏：强化学习文章标签：人工智能

于 2022-07-10 20:06:53 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhihao8013/article/details/125707813

版权

强化学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

MADDPG的架构

MADDPG采用的是“中心化训练+去中心化决策”的架构，是一种Actor-Critic方法。其中每个智能体都有一个价值网络和策略网络。

价值网络和策略网络

第i号价值网络(Critic)
输入：全局状态s、所有智能体的动作a（因为需要结合队友、对手的观测及动作才知道自身当前的动作好不好）
输出：一个实数（表示基于全局状态s，第i号智能体执行动作ai的好坏程度，可以指导第i号策略网络作出改进）
训练方式：TD算法
训练第i号价值网络需要用四元组<st、at、rt、st+1>，具体来说用到了下一时刻的全局状态St+1，所有智能体的策略网络，t时刻的奖励以及第i号智能体的价值网络.
第i号策略网络(Actor)
输入：第i号智能体的观测oi
输出：第i号智能体的动作ai
训练方式：DPG
训练第i号策略网络需要用四元组<st、at、rt、st+1>，具体来说用到了全局状态St，所有智能体的策略网络以及第i号价值网络.

所有智能体的策略网络与第i号智能体的价值网络
在这里插入图片描述

阿豪Smoking hot

关注

3
点赞
踩
11

收藏

觉得还不错? 一键收藏
3
评论
对多智能体强化学习算法MADDPG的理解

介绍了本人对MADDPG算法的理解
复制链接

扫一扫

专栏目录

阿豪Smoking hot CSDN认证博客专家 CSDN认证企业博客

码龄4年

56: 原创

8万+: 周排名

122万+: 总排名

8万+: 访问

: 等级

1039: 积分

28: 粉丝

48: 获赞

19: 评论

230: 收藏

私信

关注

热门文章

分类专栏

最新评论

对多智能体强化学习算法MADDPG的理解
阿豪Smoking hot: b站搜索王树森，这些图是他讲的强化视频课中的pdf中的。
对多智能体强化学习算法MADDPG的理解
wangle_zG: 你好，我想问一下你的这些图出自于哪里，想去学习一下，感谢
PX4的软件仿真(SITL)中关于MODE: Unsupported FCU [ WARN]的问题
小潇港哥: 实体机报这个错误什么原因啊？板载计算机和飞控没有连接好吗？
RL论文数据图绘制
阿豪Smoking hot: 在分析结果时，一般会画一个学习曲线learing curve，记录训练过程中的奖励。这个学习曲线的纵轴是奖励，横轴可以是时间步、回合数、样本训练次数training_iteration
对多智能体强化学习算法MADDPG的理解
阿豪Smoking hot: MADDPG采用CTDE架构，智能体之间并不通信，每个智能体只能通过自身的观测信息去执行动作，形成策略。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。