多智能体合作中的单独推理通信

1、文章信息

《LearningIndividually Inferred Communication for Multi-Agent Cooperation》。这是北大发表在计算机顶级会议NIPS2020上的一篇文章。

2、摘要

沟通为人类的合作奠定了基础,对多智能体的合作也至关重要。然而,现有的工作主要集中在广播通信上,这不仅不切实际,而且会导致信息冗余,甚至会影响学习过程。为了解决这些问题,我们提出了单独的推理通信(Individual Inferred Communication,I2C),是一个简单而有效的模型,使多智能体能够学习智能体与智能体之间通信的先验知识。这个先验知识能够通过因果推理学习的,并由前馈神经网络实现,该网络将智能体的局部观察结果映射为关于与谁沟通的信念。多智能体强化学习里,一个智能体对另一个智能体的影响是通过联合行动价值函数来判断的,并量化为标记智能体与智能体沟通的必要性。此外,智能体的策略被规范化以更好地利用交互信息。实验表明,与现有方法相比,I2C不仅可以降低通信开销,而且可以提高各种多智能体合作场景下的性能。

3、模型

I2C可以被CTDE的任何框架实例化,具有联合行动-价值函数. I2C的框架图如图1所示,包括了一个先验网络,一个信息编码器,一个策略网络,一个全局评价者。

作者把全局合作的多智能体任务模型化Dec-POMDPS. 多智能体的目标是最大化团队的累积回报。此外。agents能够与被观察到的agents进行交流,并且采用请求-回复的通信机制,如图2所示。

在一个时间步,每个智能体i能够获得一个观测值,并根据确定哪些agent在视野范围内。假设agent j 在agent i的视野范围内,先验网络和ID(或任何能标记agent j 的特征)作为输入,并且输出一个意见(belief)表明是否要与agent j交流。基于该意见,如果agent i向agent j 发送请求,agent j 将以消息回应,即自己的(编码的)。Agent i收到的消息被送入消息编码器网络,以产生编码后的信息,策略网络输出的分布是关于行动。集中式批判者近似于联合行动-价值函数。

  1. 通过因果推理学习先验网络

    I2C的关键组成部分是先验网络,它使agent有一个关于与谁沟通的意见。其他agent的因果效应可以被看作是对其他agent的行动进行决策的必要条件。作者通过集中批判者测量和量化agent之间的因果效应,并训练先验网络来确定agent与agent之间的沟通。、

    假设在agent i的行动空间上有两个条件概率分布表示除agenti外所有agent的给定联合行动,表示除agent i和agent j外的给定联合行动. 与前者相比,后者的概率分布不以agent j的行动为条件,意味着agent i在做决策时忽视了agent j。那么,对agent I, agentj的因果效应

    Kullback-Leibler(KL)分歧被用来衡量这两个条件概率分布之间的差异。

  2. 相关正则化

    因果效应是通过联合行动-价值函数推断出来的,以确定agent之间沟通的必要性。然后,每个agent根据其观察结果,以分散的方式采取有/无通信信息的行动。这可以看作是采用了由通信增强的分散政策,以近似于从联合行动价值函数中得出的集中政策。有了这样的近似,理想情况下,请求通信的agent的政策应该以被通信的agent的观察和行动为条件。然而,在实践中不可能直接发送行动,否则会出现循环依赖。因此,agent的策略必须只以观察为条件。然而,我们设计了相关正则化,以帮助代理将其他agent的观察和行动联系起来,从而纠正有/无行动考虑的政策之间的差异。

  3. 训练

    集中的联合行动-价值函数Q(a;o),将所有agent的行动和观察作为输入,指导策略优化。集中的批评者被更新为

    每个以为参数的策略网络的正则化梯度可以写成:

4、实验结果

实验环境:

合作导航、捕食者和 交通交汇处。在合作导航时,I2C是基于MADDPG的去学习智能体之间的交互。在交通路口,I2C是基于TarMac的方法去通讯控制。在实验中I2C和基线算法共享参数。为了保证比较的公平性,它们的基本超参数是相同的,它们的网络参数大小也是相似的。

交通口的实验设置:

在交通路口[15],许多汽车沿着有一个或多个道路交叉口的双向道路按照预定的路线移动。汽车只有两个动作:刹车(停留在当前位置)和加油(按照路线向前移动一步)。在每个时间点上,一辆新车以概率准数从每个入口进入环境,直到汽车总数达到Nmax。在汽车完成其路线后,它将被立即从网格中移除,但它可以通过重新分配路线而被添加回来。即使在发生碰撞后,汽车也会继续移动。agent与其他汽车相撞后会受到惩罚,并在每个时间段获得的奖励, 是汽车到达后的时间步数.。团队奖励是所有个人奖励的总和。实验中实施了中等和困难模式

实验结果:

5、动机

1. 目前MARL存在缺点:

  •  每个智能体在更新时策略都在更新,导致环境不稳定,模型不能够拟合;

  •  目前的方法很难让智能体在执行策略时合作,因为部分可观察性和随机性很容易破坏学到的合作策略,导致灾难性不协调

2.目前在训练合作交流存在的缺点:

  • 需要大量的带宽,在实验中会产生额外的延迟;

  • 不是每个agent都能提供有用的信息,多余的信息会损害学习过程 

3.良好的合作范式应该考虑找到合适的合作agent,使agent能够清楚与其高度相关或完全不相关的人

引用

Ding Z ,  Huang T ,  Lu Z . Learning Individually Inferred Communication for Multi-Agent Cooperation[J].  2020.

Attention

如果你和我一样是轨道交通、道路交通、城市规划相关领域的,可以加微信:Dr_JinleiZhang,备注“进群”,加入交通大数据交流量群!希望我们共同进步!

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

当交通遇上机器学习

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值