论文阅读笔记|基于知识转移的深度多任务多智能体强化学习

本文链接：https://blog.csdn.net/weixin_45944034/article/details/135288269

摘要

尽管多智能体强化学习(MARL)在解决众多复杂任务方面具有潜力，但训练单个MARL智能体团队来处理多个不同的团队任务仍然是一个挑战。本文提出了一种基于知识转移的多任务协作MARL方法(MKT-MARL)。通过向特定任务的教师学习，我们的方法使单个代理团队能够在多个任务中获得专家级的表现。MKT-MARL采用了一种专门为多智能体架构设计的知识蒸馏算法，该算法可以从特定任务教师的经验中快速学习到包含共同协调知识的团队控制策略。此外，我们通过教师退火来增强这种训练，逐渐将模型的学习从蒸馏转向环境奖励。这种增强有助于多任务模式超越单任务模式的教师。我们使用两种常用的基准来广泛评估我们的算法:《星际争霸2》微管理和多智能体粒子环境。实验结果表明，我们的算法优于单任务教师和联合训练的智能体团队。大量的消融实验证明了监督知识转移和教师退火策略的有效性。

主要创新点

（1）提出一种在CTDE范式下的多任务多智能体强化学习

（2）提出了一种多任务多智能体网络框架，支持不同长度的任务输入，提取常见多智能体的合作模式

（3）为实现高效的跨任务学习，提出了一种教师退火（teacher-annealing）方法将任务型教师和环境反馈相结合来训练智能体，可以在训练后期部首教师表现的限制

主要方法

将知识迁移方法嵌入QMIX，提出的多任务多智能体框架图如下;

多任务多智能体框架由智能体网络和混合网络两部分组成。智能体网络生成动作，与每个环境进行交互，并将交互数据存储在每个缓冲区中。利用缓冲区中的数据对混合网络和代理网络进行 TD 学习训练。通过预先训练好的教师网络输入观测值计算出行为知识，并将其提取（distill）到智能体网络中。

教师退火：为了让智能体同时从特定任务教师的知识和环境反馈中学习，我们将特定任务教师预测的监督式学习和环境反馈的自适应 TD 学习混合在一起。具体来说，我们使用退火策略来获得 $L_{KL}$ 和 $L_{TD}$ 之和中的项。

其中 λ 在训练过程中线性增加。在培训的早期阶段，多任务教学策略主要是从任务型教师那里学习的。在培训的最后阶段，该模式主要依靠环境奖励来促进其学习，使其能够超越其单一任务教师的表现。

面向 MKT-MARL 的深层多任务代理网络体系结构：该网络由三部分组成: 一个独立的观测嵌入层、一个参数共享层和一个独立的动作映射层。网络的输入是对应于每个任务的观测值，输出是对应于每个任务观测值的操作。

实验在 SMAC中，在多个场景下表现都优于单任务学习和其他基线方法。实验结果表明，算法能够在大多数任务中超越单任务学习，并且在某些任务上具有显著优势。例如，在MMM、MMM2和10m vs 11m场景中，MKT-MARL分别比单任务学习提高了0%、11%和6%的胜率。在MPE连续观测和离散动作空间的任务重，算法也表现出良好的性能。