多智能体强化学习
文章平均质量分 75
serendipity-zzc
这个作者很懒,什么都没留下…
展开
-
Deep Decentralized Multi-task Multi-Agent RL under Partial Observability——论文阅读笔记
在第二阶段,每个智能体的专门化策略被提炼成一个通用的策略,提炼的方法参考Rusu et al. (2015),具体做法从专门化策略中学习到的Q值网络中提取知识,并将其转移到一个新的通用Q值网络中。(2)为每个任务学习专门的策略可能会导致问题,因为智能体不仅要为每个任务存储不同的策略,而且在实际应用中任务的id往往是不可观察的,难以做到任务和策略的匹配。利用每个智能体对不同任务得到的Q值,希望多任务的网络训练的Q值与之接近,这里就有点类似于监督学习的问题,单任务的Q值作为标签去训练这个多任务网络。原创 2023-12-29 10:56:22 · 473 阅读 · 0 评论 -
论文阅读笔记|基于知识转移的深度多任务多智能体强化学习
尽管多智能体强化学习(MARL)在解决众多复杂任务方面具有潜力,但训练单个MARL智能体团队来处理多个不同的团队任务仍然是一个挑战。本文提出了一种基于知识转移的多任务协作MARL方法(MKT-MARL)。通过向特定任务的教师学习,我们的方法使单个代理团队能够在多个任务中获得专家级的表现。MKT-MARL采用了一种专门为多智能体架构设计的知识蒸馏算法,该算法可以从特定任务教师的经验中快速学习到包含共同协调知识的团队控制策略。此外,我们通过教师退火来增强这种训练,逐渐将模型的学习从蒸馏转向环境奖励。原创 2023-12-29 17:00:22 · 540 阅读 · 0 评论