[论文阅读] Action Semantics Network: Considering the Effects of Actions in Multiagent System

[论文阅读] Action Semantics Network: Considering the Effects of Actions in Multiagent System

原文链接:https://arxiv.org/abs/1907.11461
2020 - ICLR

1.摘要

在 MAS 中,多个智能体同时与环境交互,增加了环境的随机性和不确定性,使得为每个智能体学习一致的全局最优策略变得困难。已经提出了许多深度多智能体强化学习方法来解决此类复杂问题,将各种多智能体协调机制整合到深度多智能体学习架构中。文章指出,之前的多智能体合作中都没有明确地考虑智能体之间的动作语义(action semantics),即一个智能体的不同动作会对其他智能体产生不同的影响。
作者提出了Action Semantics Network (ASN)。 ASN 使用基于动作语义的神经网络来表征不同动作对其他智能体的影响,明确考虑智能体之间的动作语义,以提高对不同动作的估计准确性。可以很容易地与现有的深度强化学习算法相结合,以提高其性能。并在SMAC和Neural MMO的环境下验证了ASN结构的性能。
以前的工作通常使用所有可用信息来估计所有动作的价值,这可能非常低效。ASN 不是将智能体的全部观察输入到一个网络中,而是由几个子模块组成,这些子模块根据动作的语义将智能体观察的不同部分作为输入。 通过这种方式,ASN 可以有效地避免无关信息的负面影响,从而为执行每个动作提供更准确的估计。

2. Architecture

2.1 POSG

Stochastic games(SGs) 是MDP的多智能体版本,建模了多智能体之间的动态交互。考虑到对一个智能体而言全局状态不可知,所以建模出POSG。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
智能体i在t时刻的观察可以建模为对于环境的观察,智能体的私有属性(例如i的位置、剩余血量),对其他智能体的观察。

2.2 对于动作的划分

文章指出,每个智能体的动作集可以分为两种类型:
①直接影响环境或其私有属性的动作。②直接影响其他智能体的动作。
如果一个智能体的动作直接影响了其他某个智能体,那么执行这个动作的value应该更多地依赖于智能体对环境的观察以及受这个动作影响的智能体,而任何额外的信息(例如,智能体对其他智能体的部分观察)是不相关的,可能会增加噪音。
将不同动作可能对其他智能体产生不同影响的属性称为动作语义。

在这里插入图片描述

2.3 ASN

根据2.2中对于动作的分类,将一个智能体的动作集合 A i A^i Ai分为 A i n i A_{in}^i Aini (①)、 A o u t i A_{out}^i Aouti(②)两类。
通过将网络划分为不同的子模块,明确地考虑一个智能体的行为对其他智能体的不同影响,每个子模块按照动作的语义将智能体观察的不同部分作为输入。

Fig.1为框架。假设一个智能体 i i i,周边有 n − 1 n-1 n1个智能体。ASN将智能体 i i i的网络解耦成n个模块。

第一个模块 O 2 A i O2A^i O2Ai中, O 2 E i O2E^i O2Ei 的输入为智能体 i i i的观察,输出为观察的embedding e i e^i ei E 2 A i E2A^i E2A

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值