多目标、多阶段、多层次的强化学习合作方法

1 文章信息

COOPERATIVE MULTI-GOAL MULTI-STAGE MULTI-AGENT REINFORCEMENT LEARNING。这是佐治亚理工学院发表在计算机顶级会议ICLR2020上的一篇文章。

2 摘要

不同的多智能体合作控制问题需要智能体实现各自的目标的同时为全局的成功做贡献。这种多目标多智能体的设置给目前针对单一的全局奖励设置的算法带来两个挑战:1、需要高效的学习探索,既要实现个人目标,又要为他人的成功而合作;2、不同智能体的行动和目标之间相互作用的信用分配。为了解决这两个挑战,作者将问题重组为一个新型的两个阶段体系:在实现多智能体合作之前,先学习实现单智能体目标。作者推导出一种多目标多智能体的梯度策略,并采用信用函数进行局部信用分配,使用一个函数增强方案来连接价值和政策函数的阶段。这个完整的框架被称为CM3,并在如何在困难的队形中的合作导航,SUMO交通模拟器中协商多车道变化,以及跳棋环境中战略合作这三个具有挑战性的多目标多智能体问题上的学习速度明显快于直接适应现有算法的速度。

3 动机

目前针对智能体如何探索去学习实现个人目标和与他人合作实现他人的目标的问题MARL中主要使用统一随机探索的方法,但是由于合作动作的价值只能在需要合作的状态空间的小区域中才能发现,实现自己的目标和为他人的成功而合作之间的概念差异,需要更多模块化和有针对性的方法,所以此种方法非常低效。其次,在所有智能体都在共享实现全局奖励时,会存在多智能体信用分配的方法,目前将多目标方案作为单一联合目标问题的方法使得评估一个智能体的动作会对其他智能体的成功的影响非常困难。相反,将多目标方法根据细粒度信用分配获益,这种方法利用行动-目标交互中的现有结构,如局部交互,即只有少数智能体在任何时候能影响其他智能体的目标实现。

4 模型构建

作者提出CM3框架,使用深度神经网络用来函数逼近,如图1所示。在不失通用性的前提下,作者假设以目标为输入的同质智能体之间的参数共享,非同质的情况可以由N个演员-批评者来解决。借鉴多任务学习,作者在每个事件中对智能体的目标进行采样,为所有目标训练一个模型。

  1. 阶段1: 作者训练一个演员家和一个评判家 。在N=1和随机目标抽样的诱导式MDP中,根据公式(4)(5)进行收敛,这比完全多代理环境使用的样本少了几个数量级。

  2. 阶段2: 马尔科夫博弈是用所有N个智能体实例化的,将训练好的π1参数还原,实例化第二个神经网络π2,用于智能体处理,并将π2的输出连接到π1的选定隐藏层。

增强函数:图1中间部分描述了π从π1到π2,相似的,目标从Q1开始构建:当输入到Q1时与一个新的模块的输入结合选择输出Q1的隐藏层,信用函数是从Q1扩展出来的,用公式5训练策略,用损失训练信用函数,用与公式4类似的联合行动训练全局Q函数。

5 实验结果

实验环境

本实验在三种应用场景下:困难队形中的合作导航,自动驾驶中的双车道合并,以及跳棋游戏中的战略合作。

对比算法

本实验的对比算法分为两类:一:其他算法(COMA, IAC, QMIX)做对比,二:本文所提出算法的变体做对比。为了发现两阶段与功能增强的速度,作者训练了CM3的完整的第2阶段架构(没有第1阶段);为了研究新的信用函数和多目标策略梯度的优点,作者训练了一个具有优势函数QV的消融实验。

实验结果

在所有实验情况下中,CM3发现最优或接近最优的策略的速度明显快于IAC和COMA,并且在五个情况中的四种情况中,CM3的性能明显高于QMIX。

消融实验结果:CM3相对于 "直接"(图5f~5j)的性能显著提高,这说明在学习多智能体合作之前学习个体目标的实现,以及用Stage 1参数初始化Stage 2,对提高学习速度和稳定性至关重要,虽然全局行动值和信用函数可能很难从头开始训练,但函数增强显著缓解了学习问题。虽然 "QV "最初快速学习以达到个人目标,但它是以频繁的碰撞、较高的变异性和无法维持合作解为代价的,给出了信用函数必要性的明确证据。


7 创新点

1. 作者从一个新的课程学习角度出发解决多智能体探索的难题,分为两个阶段:1. 通过首先训练一对演员-批评家,在诱导式单智能体环境下实现不同的目标;2. 用阶段一的智能体来初始化多智能体环境中的所有智能体。这种方法能够使已经能够朝着个人目标行动的智能体,一旦引入其他智能体,就能更好地准备发现合作解决方案,并进行额外的探索。与分层学习不同的是,在分层学习中,子目标是按时间顺序选择的,在该方法的第二阶段,所有的智能体都同时朝着他们的目标行动。

 

2. 作者观察到一系列复杂的MARL问题允许将智能体的观察和状态向量分解为自我、他人和非智能体特定环境信息的组成部分,作者采用函数增强来衔接阶段1到阶段2:在阶段1中通过将其输入空间限制在单智能体训练所需的部分,来减少演员-批评家的可训练参数数量,然后在阶段2中用额外的输入和可训练参数来增强多智能体环境下的学习架构。

 

3. 作者提出了一个信用函数,是一个专门评估动作-目标对的动作-价值函数,用于多目标MARL的局部信用分配,用它来推导出第2阶段的多目标多智能体策略梯度。在与多阶段协同作用下,信用函数是通过阶段1中的批判者的函数增强来构建。

Attention

如果你和我一样是轨道交通、交通运输、城市规划相关领域的,也愿意分享自己的科研生活,请加微信:Dr_JinleiZhang,备注“进群”,我会拉你进交通大数据分享群!希望我们共同进步!

  • 0
    点赞
  • 32
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

当交通遇上机器学习

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值