[RL 13] VDN (201706, DeepMind)

paper: Value-Decomposition Networks For Cooperative Multi-Agent Learning

背景

  1. cooperative setting (reward 相同)
  2. centralized MARL approach 存在不足
    • 可能会出现 lazy agent: lazy agent 的 exploration 可能导致 reward 变低
  3. independent learning 存在不足
    • non-stationary
    • spurious reward signals
  4. Dec-POMDP framework
    1. agent acts with local Qi(hi, ai)
  5. 问题: 如何学习Qi ? 该论文提出了一种方法

3 A Deep-RL Architecture for Coop-MARL

假设 Qi 和 Qtot 之间有如下关系:
来自源论文
我们就可以通过下式训练Qi
在这里插入图片描述
其中

  1. Qtot为: n个max Qi(h, a)之和, h由buffer中的序列构造, a也来自buffer
  2. max Qtot为: n个Qi的max Qi之和, h’ 也来自buffer

PS:

  1. agent与环境互动时只需要使用Qi
  2. 当agent数量n变大时, max操作的复杂度只是线性增加 (因为max操作遍历agent, 而不是遍历joint action space |A|^n)
  3. Qi 之间 weight sharing: nn输入agent的onehot编码 (限于同质agent)
  4. LSTM 只输入 observation
  5. communication layer

不足

  1. Qtot 与 Qi 之间的关系假设太特殊
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值