1、文章信息
《Succinctand Robust Multi-Agent Communication With Temporal Message Control》这是哈弗大学发表在计算机顶级会议Nips2021上的一篇文章。
2、摘要
目前的研究已经证明了, 在合作的多智能体强化学习中智能体之间引入通信可以明显的提升全局的表现。然而,现有的交互机制常常需要智能体在可靠的通信通道运行时交换大量信息。这篇论文提出了时间信息控制(TMC),是一种在 MARL 中实现简洁而稳健的通信的简单而有效的方法。TMC 采用时间平滑技术大幅减少智能体之间交换的信息量。实验证明,TMC能够明显减少内部智能体的通信且不影响准确率。此外,在有损网络环境中,TMC表现出比现有技术更好的传输损耗鲁棒性.
3、动机
1. 多智能体之间交互模型复杂且会产生不稳定性会破坏整体的有效性
2. 价值分解的方式在执行阶段不允许智能体之间进行显示信息交互,阻碍了MARL在更复杂场景的性能。
3. 大量的工作集中在利用通信来获得更好的全局性能,但是很少关注通信渠道的可靠性和信息交换的效率。
4. 不断变化的观测值会导致交换多余和冗余的信息,从而降低全局系统表现。
4、模型
智能体网络定义
智能体网络如图2所示包括:局部动作生产器,消息编码器,组合块和两个缓冲区组成:发送消息缓冲区和接收消息缓冲区。
接收消息缓冲区存储了从队友那里收到的最新消息。每个存储的消息都分配了一个有效位,指示消息是否已过期。发送消息缓冲区存储agent 1 发送的最后一条消息。
消息编码器包含MLP,能接受局部动作产生器产生的中间结果,然后生成消息通过广播的形式传给智能体,并存储到发送消息缓冲区。
b. 智能体通过局部观测值和历史消息获取局部Q值.
c. 被智能体选中的消息和局部Q值传递到组合块,去产生全局Q值。将消息引入全局 Q 值生成导致更好的动作选择,因为消息包含有关全局观察的信息,和全局历史。
2. Loss 函数定义
学习简洁消息交换的关键见解是基于以下观察:智能体之间交换的消息在大多数情况下通常表现出很强的时间局部性。因此,作者引入在一段时间W_s内平滑智能体n生成的消息的正则化器。
W_s是平滑窗口的大小,等式1鼓励时间窗口内的消息相似,因此如果当前消息与之前发送的消息高度相似,则智能体不需要传输当前消息。另一方面,如果没有从发送者智能体接收到消息,接收者智能体可以简单地利用存储在接收到的消息缓冲区中的旧消息来做出动作决定,因为它与发送者智能体生成的当前消息非常相似。但是会产生如图1所示的错误。
为了避免这种错误情况,作者定义了另一个正则化器来最大化动作选择置信度,它被定义为全局 Q 函数中最大和第二大Q值之间的差异:
基于价值分解的方法,定义了一个混合的网络去获取全局的q值,并生成总loss函数为:
3. 通信协议设置
是否通讯主要有如图所示的三种情况:
图a: 在时间内,Agent1 得到了局部的q值[1.8,0.1,1.2], 接受缓冲池中存储了Agent2和Agent3产生消息[2,-3,0]和[-1,2,4]。Agent2和Agent3产生出的新消息[2,-3,0],[-1,2,4]与存储的消息计算欧式距离,两者的距离都小于规定的阈值2,故都不发送消息。Agent1仅根据局部q值计算全局q值。
图b:主要为了说明传输损耗。Agent2产生了一个能与Agent1交互的信息,但是在传输过程丢失了。此时Agent1采用有用的信息缓存计算全局q值。
图c: Agent2 产生了能与Agent1交互的信息且没有丢失,Agent1首先更新其接受信息缓存,并使用最新的消息计算全局q值。
5、实验结果
实验环境:星际争霸,捕食者猎物(PP)和合作导航(CN)
对比算法:Baseline:QMIX, SchedNet,VBC
消融算法:不加TMC的AC算法,不加TMC的VBC 算法
星际争霸下的结果:
PP和CN的结果:
6、创新点
这篇论文提出了时间信息控制(TMC),它是一种利用时间局部性来实现简洁而强大的智能体之间的信息交换的框架。
1. 引入了正则化器,鼓励智能体减少时间相关消息的数量
2. 发送方只有在当前消息比先前传送的消息较新的时候,智能体才会发送
3. 接受方:智能体将来自其他智能体的最新消息存储在缓冲区中,并用缓存消息做出决策。
Attention
如果你和我一样是轨道交通、道路交通、城市规划相关领域的,可以加微信:Dr_JinleiZhang,备注“进群”,加入交通大数据交流群!希望我们共同进步!