QMIX环境配置详细过程&常见问题

代码环境:StarCraft II

官方代码网址:GitHub - oxwhirl/pymarl: Python Multi-Agent Reinforcement Learning framework

进入网址后,看到如下页面:

  • 点击 Code→Download ZIP,下载代码

  • 解压pymarl-master.zip

  • 确保已正确安装PyCharm和Anaconda的前提下,打开Anaconda文件夹中的Anaconda Prompt进行库的安装

  • (非必须,但可以为不同项目创各自虚拟环境,防止冲突)python创建虚拟环境。在打开的Anaconda Prompt中,输入如下命令(your_env_name是自己起的环境名称)

 注:python的版本可以通过输入命令“python”进行查看,也可以自行选择需要的版本号。

  • 创建好虚拟环境后,输入如下命令进行激活

  • 激活后,命令行前端即为创建的虚拟环境名。接着进入刚才下载的pymarl-master所在目录。切换盘时,直接输入“D:”或 “F:”等命令,继而输入命令“cd D:\xxx\pymarl-master”(进入pymarl-master的路径)
  • 安装代码运行所需要的库。在pymarl-master文件夹中,有requirements.txt文件,包含所需的库。

在命令行输入命令“pip install -r requirements.txt”,进行安装。如出现报错问题,即为库的版本过低或找不到指定版本,手动输入“pip install 库名字”即可(此处不再做“库名字==版本号”的限定,只输入库名字)。如果一直出现报错,不如直接打开requirements.txt,照着一个一个pip。

注:yaml在安装时,输入“pip install pyyaml”

  • 库全部安装好后,继续返回浏览网页,点击SMAC

 根据网页所指引的步骤进行操作。

  • 安装SMAC,命令即为网页所示(若报git的错,就先去搜git下载安装,装好后即可执行git相关命令)

  • 安装游戏(游戏较大,注意安装位置是否有足够空间)

 安装好游戏后,右键,点击“属性”,点击配置环境变量

  • 点击“环境变量”

 在上下两个变量框,均“新建”如下变量:

 其中,变量值即为游戏所在路径。

  • 配置好环境变量,再返回网页浏览

 点击SMAC Maps下载并解压,而后将解压后的所有东西,全部复制到游戏目录下的Maps文件夹内(没有Maps文件夹,自己新建一个即可)。

  • 通过PyCharm打开代码pymarl-master,在main.py中做如下修改:

  • 最后,一切就绪,点击运行!!!!!!!!!!

yeah~

【项目介绍】 基于python实现多智能体强化学习VDN、QMIX、QTRAN、QPLEX算法源码+对应模型文件.zip基于python实现多智能体强化学习VDN、QMIX、QTRAN、QPLEX算法源码+对应模型文件.zip基于python实现多智能体强化学习VDN、QMIX、QTRAN、QPLEX算法源码+对应模型文件.zip基于python实现多智能体强化学习VDN、QMIX、QTRAN、QPLEX算法源码+对应模型文件.zip基于python实现多智能体强化学习VDN、QMIX、QTRAN、QPLEX算法源码+对应模型文件.zip基于python实现多智能体强化学习VDN、QMIX、QTRAN、QPLEX算法源码+对应模型文件.zip基于python实现多智能体强化学习VDN、QMIX、QTRAN、QPLEX算法源码+对应模型文件.zip基于python实现多智能体强化学习VDN、QMIX、QTRAN、QPLEX算法源码+对应模型文件.zip 基于python实现多智能体强化学习VDN、QMIX、QTRAN、QPLEX算法源码+对应模型文件.zip基于python实现多智能体强化学习VDN、QMIX、QTRAN、QPLEX算法源码+对应模型文件.zip 基于python实现多智能体强化学习VDN、QMIX、QTRAN、QPLEX算法源码+对应模型文件.zip 【说明】 1、项目源码在上传前,都经过本地成功运行,功能测试无误。请放心下载使用!有问题请及时沟通交流。 2、适用人群:计算机科学、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、机械电子信息等相关专业背景的在校大学生、专业老师 行业从业人员等下载使用。 3、用途:项目代表性强,具有创新性和启发性,故具有挺高的学习借鉴价值。不仅适合小白入门进阶,还可作为毕设项目、课程设计、大作业、比赛初期项目立项演示等。 4、如果基础还不错,又热爱学习钻研,也可基于此项目基础上进行修改进行二次开发。 本人也是技术狂热者,如果觉得此项目对您有价值,欢迎下载使用! 无论您是运行还是二次开发,遇到问题或困惑,欢迎私信交流学习。
### MAPPO 结合 QMIX 的实现方法 在多智能体强化学习领域,MAPPO 和 QMIX 是两种不同的技术路径。前者专注于通过个体策略优化来提升整体性能,而后者则侧重于中心化的价值估计以促进更好的协调。 #### 1. 背景介绍 MAPPO(Multi-Agent Proximal Policy Optimization),作为 PPO 算法的一个扩展版本,在处理多个代理的情况下表现出色[^1]。该算法允许每个智能体独立更新自己的行为策略,从而提高了训练过程中的稳定性以及适应不同环境的能力。 另一方面,QMIX 提供了一种新颖的方法用于解决合作型多智能体系统的决策问题。其核心思想在于设计一个混合网络结构,能够将各个单独行动的价值函数组合成全局状态下的总回报预测值[^3]。 #### 2. 方法概述 当试图将这两种机制结合起来时,可以考虑如下方案: - **共享信息层**:引入额外的信息交换环节让各智能体间传递局部观测数据;这有助于增强它们之间的沟通并改善最终形成的联合行动计划的质量。 - **双轨制架构**:构建两套平行运作的学习框架——一套负责执行基于 MAPPO 的去中心化控制逻辑,另一套则依据 QMIX 原理计算集中式的奖励评估指标。两者相互补充而非冲突对立,共同推动系统向更优解进化。 - **交替迭代流程**:设定特定周期内的角色分工模式,即某些阶段内优先采用分散式探索方式积累经验样本集,而在其他时刻转而依赖统一指导方针调整参数设置方向。 ```python import torch.nn as nn class SharedInfoLayer(nn.Module): def __init__(self, input_dim, output_dim): super(SharedInfoLayer, self).__init__() self.fc = nn.Linear(input_dim, output_dim) def forward(self, x): return torch.relu(self.fc(x)) def dual_track_learning(mappo_agents, qmix_networks, episodes=1000): for episode in range(episodes): if episode % 2 == 0: # 使用 MAPPO 更新策略 mappo_update() else: # 利用 QMIX 计算总体评价 qmix_evaluation() ``` 这种集成不仅继承了各自的优势特性,还可能创造出全新的交互形式,进而达到更高的效率水平和更强鲁棒性的目的。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值