带有时间信息的简单且稳健的多智能体通信

1、文章信息

《Succinctand Robust Multi-Agent Communication With Temporal Message Control》这是哈弗大学发表在计算机顶级会议Nips2021上的一篇文章。

2、摘要

目前的研究已经证明了, 在合作的多智能体强化学习中智能体之间引入通信可以明显的提升全局的表现。然而,现有的交互机制常常需要智能体在可靠的通信通道运行时交换大量信息。这篇论文提出了时间信息控制(TMC),是一种在 MARL 中实现简洁而稳健的通信的简单而有效的方法。TMC 采用时间平滑技术大幅减少智能体之间交换的信息量。实验证明,TMC能够明显减少内部智能体的通信且不影响准确率。此外,在有损网络环境中,TMC表现出比现有技术更好的传输损耗鲁棒性.

3、动机

1. 多智能体之间交互模型复杂且会产生不稳定性会破坏整体的有效性

2. 价值分解的方式在执行阶段不允许智能体之间进行显示信息交互,阻碍了MARL在更复杂场景的性能。

3. 大量的工作集中在利用通信来获得更好的全局性能,但是很少关注通信渠道的可靠性和信息交换的效率。

4. 不断变化的观测值会导致交换多余和冗余的信息,从而降低全局系统表现。

4、模型


  1. 智能体网络定义

  1.  智能体网络如图2所示包括:局部动作生产器,消息编码器,组合块和两个缓冲区组成:发送消息缓冲区和接收消息缓冲区。

    1. 接收消息缓冲区存储了从队友那里收到的最新消息。每个存储的消息都分配了一个有效位,指示消息是否已过期。发送消息缓冲区存储agent 1 发送的最后一条消息。

    2. 消息编码器包含MLP,能接受局部动作产生器产生的中间结果,然后生成消息通过广播的形式传给智能体,并存储到发送消息缓冲区

    b.  智能体通过局部观测值和历史消息获取局部Q值.

    c. 被智能体选中的消息和局部Q值传递到组合块,去产生全局Q值将消息引入全局 Q 值生成导致更好的动作选择,因为消息包含有关全局观察的信息,和全局历史。

    2.  Loss 函数定义

    学习简洁消息交换的关键见解是基于以下观察:智能体之间交换的消息在大多数情况下通常表现出很强的时间局部性。因此,作者引入在一段时间W_s内平滑智能体n生成的消息的正则化器。

    W_s是平滑窗口的大小,等式1鼓励时间窗口内的消息相似,因此如果当前消息与之前发送的消息高度相似,则智能体不需要传输当前消息。另一方面,如果没有从发送者智能体接收到消息,接收者智能体可以简单地利用存储在接收到的消息缓冲区中的旧消息来做出动作决定,因为它与发送者智能体生成的当前消息非常相似。但是会产生如图1所示的错误。

    为了避免这种错误情况,作者定义了另一个正则化器来最大化动作选择置信度,它被定义为全局 Q 函数中最大和第二大Q值之间的差异:

    基于价值分解的方法,定义了一个混合的网络去获取全局的q值,并生成总loss函数为:

    3.  通信协议设置


是否通讯主要有如图所示的三种情况:

       图a: 在时间内,Agent1 得到了局部的q值[1.8,0.1,1.2], 接受缓冲池中存储了Agent2和Agent3产生消息[2,-3,0]和[-1,2,4]。Agent2和Agent3产生出的新消息[2,-3,0],[-1,2,4]与存储的消息计算欧式距离,两者的距离都小于规定的阈值2,故都不发送消息。Agent1仅根据局部q值计算全局q值。

       图b:主要为了说明传输损耗。Agent2产生了一个能与Agent1交互的信息,但是在传输过程丢失了。此时Agent1采用有用的信息缓存计算全局q值。

       图c: Agent2 产生了能与Agent1交互的信息且没有丢失,Agent1首先更新其接受信息缓存,并使用最新的消息计算全局q值。

5、实验结果

实验环境:星际争霸,捕食者猎物(PP)和合作导航(CN)

对比算法:Baseline:QMIX, SchedNet,VBC

消融算法:不加TMC的AC算法,不加TMC的VBC 算法

    星际争霸下的结果:

    PP和CN的结果:

6、创新点

这篇论文提出了时间信息控制(TMC),它是一种利用时间局部性来实现简洁而强大的智能体之间的信息交换的框架。

1. 引入了正则化器,鼓励智能体减少时间相关消息的数量

2. 发送方只有在当前消息比先前传送的消息较新的时候,智能体才会发送

3. 接受方:智能体将来自其他智能体的最新消息存储在缓冲区中,并用缓存消息做出决策。

Attention

如果你和我一样是轨道交通、道路交通、城市规划相关领域的,可以加微信:Dr_JinleiZhang,备注“进群”,加入交通大数据交流群!希望我们共同进步!

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
DDPG(Deep Deterministic Policy Gradient)是一种用于训练连续动作空间中的智能体的深度强化学习算法。控制滑动机器人是一个复杂的任务,需要智能体学会平衡、移动和避障,因此使用DDPG算法进行训练是一个很好的选择。 首先,我们需要建立一个适合滑动机器人的仿真环境,可以使用强化学习工具包如OpenAI Gym来创建一个与真实环境相似的虚拟环境。在这个环境中,智能体可以通过感知传感器获取环境信息,并决策执行动作。 接下来,我们需要定义智能体的状态空间、动作空间和奖励函数。状态空间可以包括滑动机器人的位置、速度等信息,动作空间则可以是滑动机器人可以执行的一系列动作,比如前进、后退、左转、右转等。奖励函数可以根据智能体的行为来奖励或惩罚智能体,以引导其学习目标行为。 然后,我们可以使用DDPG算法来训练智能体。DDPG算法结合了深度学习和策略梯度方法,可以有效地训练智能体在连续动作空间中学习到最优的策略。通过在环境中与智能体互动,智能体可以通过经验回放的方式来更新自己的策略,并逐渐提高在控制滑动机器人任务中的表现。 最后,我们可以对训练好的DDPG智能体进行评估和优化,以确保其在真实环境中的稳健性和有效性。通过不断的训练和调优,我们可以训练出一个能够有效控制滑动机器人的DDPG智能体。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

当交通遇上机器学习

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值