MAPPO：超参数篇

最新推荐文章于 2025-02-17 17:03:46 发布

AI-星辰

最新推荐文章于 2025-02-17 17:03:46 发布

阅读量2.3k

点赞数 38

分类专栏：动手实现强化学习文章标签：人工智能机器学习 python

本文链接：https://blog.csdn.net/weixin_46246346/article/details/141901668

版权

动手实现强化学习专栏收录该内容

4 篇文章

订阅专栏

MAPPO：超参数篇

1. 引言

Multi-Agent Proximal Policy Optimization (MAPPO) 是一种强大的多智能体强化学习算法，它将PPO的稳定性扩展到多智能体环境中。本文将深入探讨MAPPO的理论基础、实现细节、关键超参数、优化策略以及在实际应用中的表现。

2. MAPPO的理论基础

2.1 PPO回顾

MAPPO基于PPO（Proximal Policy Optimization）算法。PPO的核心思想是通过限制策略更新的幅度来提高训练的稳定性。PPO使用裁剪目标函数：

$L^{CLIP}(\theta) = \hat{\mathbb{E}}_t[\min(r_t(\theta)\hat{A}_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon)\hat{A}_t)]$

其中， $r_t(\theta)$ 是新旧策略的概率比， $\hat{A}_t$ 是优势估计， $\epsilon$ 是裁剪范围。

2.2 MAPPO的创新

MAPPO将PPO扩展到多智能体环境，主要创新点包括：

中心化训练，去中心化执行：使用全局信息进行训练，但每个智能体在执行时只依赖自己的观察。
共享策略网络：所有智能体共享同一个策略网络，但输入各自的观察。
适应多智能体环境的价值估计：考虑其他智能体的行为对当前智能体的影响。

3. MAPPO算法详解

3.1 网络架构

MAPPO通常使用以下网络架构：

共享特征提取器：处理每个智能体的观察。
策略头：基于提取的特征输出动作概率分布。
价值头：估计状态价值。

3.2 核心算法流程

收集经验：每个智能体根据当前策略在环境中交互，收集观察、动作、奖励等数据。
计算优势估计：使用广义优势估计（GAE）计算每个时间步的优势。
策略更新：使用PPO的裁剪目标更新策略网络。
价值函数更新：最小化预测值与实际回报之间的均方误差。

3.3 关键方程

MAPPO的目标函数可以表示为：

$L^{MAPPO}(\theta) = \sum_{i=1}^N \hat{\mathbb{E}}_t[\min(r_t^i(\theta)\hat{A}_t^i, \text{clip}(r_t^i(\theta), 1-\epsilon, 1+\epsilon)\hat{A}_t^i)]$

其中， $N$ 是智能体数量， $r_t^i(\theta)$ 和 $\hat{A}_t^i$ 分别是第 $i$ 个智能体的概率比和优势估计。

4. 核心学习超参数

4.1 学习率 (Learning Rate)

作用：控制策略和价值网络参数更新的步长。
典型范围：1e-5 到 1e-3
影响：
- 过大：可能导致训练不稳定或发散
- 过小：学习速度慢，可能陷入局部最优
调优策略：
1. 从较小值（如1e-4）开始，逐步增加
2. 使用学习率调度器，如线性衰减或余弦退火
3. 考虑为策略网络和价值网络使用不同的学习率

4.2 裁剪范围 ε (Clip Range)

作用：限制策略更新的幅度，是PPO/MAPPO的核心超参数。
典型范围：0.1 到 0.3
影响：
- 较大：允许更大的策略更新，但可能导致不稳定
- 较小：限制更新，但可能导致学习速度慢
调优策略：
1. 通常从0.2开始
2. 可以使用自适应裁剪范围，根据KL散度动态调整

4.3 GAE-λ (Generalized Advantage Estimation lambda)

作用：在计算优势估计时平衡偏差和方差。
典型范围：0.9 到 1.0
影响：
- λ接近1：减少偏差，但可能增加方差
- λ接近0：减少方差，但可能增加偏差
调优策略：
1. 通常从0.95开始
2. 对于更长时间尺度的任务，可以使用更接近1的值

4.4 折扣因子 γ (Discount Factor)

作用：决定未来奖励的重要性。
典型范围：0.95 到 0.99
影响：
- 接近1：更注重长期回报
- 较小：更注重即时奖励
调优策略：
1. 对于长期任务，使用接近1的值（如0.99）
2. 对于短期任务，可以使用较小的值（如0.95）

5. 策略相关超参数

5.1 熵系数 (Entropy Coefficient)

作用：控制策略熵在损失函数中的权重，用于鼓励探索。
典型范围：0.01 到 0.1
影响：
- 较大：鼓励更多探索
- 较小：鼓励更多利用
调优策略：
1. 从较大的值开始（如0.1），随训练进行逐渐减小
2. 可以使用自适应熵系数，根据策略熵的变化动态调整

5.2 价值函数系数 (Value Function Coefficient)

作用：控制价值函数损失在总损失中的权重。
典型范围：0.5 到 1.0
影响：
- 较大：更注重价值函数的准确性
- 较小：更注重策略的改进
调优策略：
1. 通常从0.5开始
2. 如果价值估计不准确，可以增大这个值

5.3 KL散度目标 (Target KL Divergence)

作用：用于自适应KL惩罚或提前停止。
典型范围：0.01 到 0.05
影响：
- 较大：允许更大的策略变化
- 较小：限制策略变化，增加稳定性
调优策略：
1. 从0.01开始，根据训练稳定性调整
2. 可以作为提前停止的条件，当KL散度超过目标值时停止更新

6. 网络架构超参数

6.1 隐藏层大小 (Hidden Layer Size)

作用：决定神经网络的容量。
典型范围：64 到 512
影响：
- 较大：增加模型容量，但可能导致过拟合
- 较小：减少模型复杂度，但可能欠拟合
调优策略：
1. 从中等大小（如256）开始
2. 根据任务复杂度和样本量调整

6.2 隐藏层数量 (Number of Hidden Layers)

作用：影响网络的深度。
典型范围：2 到 4
影响：
- 更多层：增加模型复杂度，可能捕捉更复杂的模式
- 更少层：减少过拟合风险，训练更快
调优策略：
1. 从2层开始
2. 对于复杂任务，可以尝试增加层数

6.3 激活函数 (Activation Function)

作用：引入非线性，增加模型表达能力。
常见选择：ReLU, Tanh, LeakyReLU
影响：
- ReLU：计算快，但可能导致"死亡ReLU"问题
- Tanh：输出有界，但可能存在梯度消失问题
调优策略：
1. 通常默认使用ReLU
2. 对于MAPPO，Tanh也是常见选择，特别是在策略网络中

7. 优化器超参数

7.1 批量大小 (Batch Size)

作用：决定每次参数更新使用的样本数。
典型范围：32 到 1024
影响：
- 较大：更稳定，但需要更多内存
- 较小：更新更频繁，但可能不稳定
调优策略：
1. 从中等大小（如128）开始
2. 根据可用内存和样本效率调整

7.2 优化器选择 (Optimizer Choice)

常见选择：Adam, RMSprop
影响：
- Adam：自适应学习率，通常效果好
- RMSprop：在某些情况下可能比Adam更稳定
调优策略：
1. 默认使用Adam
2. 如果训练不稳定，可以尝试RMSprop

7.3 梯度裁剪 (Gradient Clipping)

作用：防止梯度爆炸。
典型范围：0.5 到 5.0
影响：
- 较大：允许更大的梯度，但可能不稳定
- 较小：增加稳定性，但可能影响学习速度
调优策略：
1. 从1.0开始
2. 如果遇到梯度爆炸问题，减小这个值

8. 多智能体特定超参数

8.1 智能体数量 (Number of Agents)

作用：决定环境中的智能体数量。
影响：
- 更多智能体：增加任务复杂度，可能需要更复杂的协作策略
- 更少智能体：简化问题，但可能无法充分展示MAPPO的优势
调优策略：
1. 根据具体任务设定
2. 考虑计算资源限制

8.2 观察空间维度 (Observation Space Dimension)

作用：定义每个智能体的观察向量大小。
影响：
- 较大：提供更多信息，但增加学习难度
- 较小：简化学习，但可能丢失重要信息
调优策略：
1. 根据任务需求设定
2. 考虑使用特征选择或降维技术

8.3 动作空间维度 (Action Space Dimension)

作用：定义每个智能体可执行的动作数量。
影响：
- 较大：增加行为灵活性，但增加学习难度
- 较小：简化问题，但可能限制策略表现
调优策略：
1. 根据任务需求设定
2. 考虑动作空间的离散化或连续化

8. 高级超参数

9.1 多步预测长度 (N-step Returns)

作用：在计算目标值时使用多步预测。
典型范围：1 到 5
影响：
- 较大：减少偏差，但可能增加方差
- 较小：减少方差，但可能增加偏差
调优策略：
1. 从1开始（等同于单步TD）
2. 逐步增加，观察性能变化

9.2 重用轨迹次数 (Number of Epoch)

作用：决定每批数据用于训练的次数。
典型范围：3 到 10
影响：
- 较多：提高样本利用率，但可能导致过拟合
- 较少：减少过拟合风险，但可能降低样本效率
调优策略：
1. 从5开始
2. 根据训练稳定性和性能调整

9.3 奖励缩放 (Reward Scaling)

作用：将奖励缩放到合适的范围。
典型方法：标准化、除以标准差
影响：
- 适当缩放可以稳定训练过程
- 过度缩放可能影响学习信号强度
调优策略：
1. 使用自适应奖励缩放
2. 确保缩放后的奖励在[-1, 1]或[0, 1]范围内

8. 结论

在实际应用中，建议从以下步骤开始：

使用推荐的默认值作为起点。
优先调整学习率、裁剪范围和GAE-λ等核心参数。
使用网格搜索或贝叶斯优化等方法进行系统性调优。
密切监控训练过程，包括奖励、策略熵、KL散度等指标。
根据具体任务特点和性能瓶颈，有针对性地调整相关超参数。