论文阅读——MO-MIX:基于深度强化学习的多目标多智能体协作决策(IF=20.8)

原文连接:

MO-MIX: Multi-Objective Multi-Agent Cooperative Decision-Making With Deep Reinforcement Learning | IEEE Journals & Magazine | IEEE Xplore


目录

贡献

Pareto集

MO-MIX

条件代理网络(CAN)

GRU

MLP

多目标混合网络(MOMN)

QMIX

探索引导方法

算法框架

评价方法

实验结果

1.与baseline对比

2.不同偏好采样间隔

3.与无探测引导部分的MO-MIX对比


贡献

1.提出了一种新的多目标多智能体协同决策方法MO-MIX,该方法能够根据输入偏好生成多种策略,并最终得到稠密且高质量的Pareto集近似。

2.提出了一种探索引导方法。在训练过程中引导算法的探索方向,改善了最终Pareto集逼近的一致性。

Pareto集

Pareto frontier-CSDN博客

MO-MIX

条件代理网络(CAN)

CAN是CTDE框架的分散执行部分。

目的:估计行动价值向量函数Q,其中包括所有目标的价值函数。

CAN由几个多层感知器(MLP)层和一个门递归单元(GRU)层组成。


GRU

参考

【深度学习 搞笑教程】30 门控神经单元GRU | 草履虫都能听懂 零基础入门 | 持续更新_哔哩哔哩_bilibili

GRU是一种能够更好地处理序列信息的递归神经网络。GRU的输出不仅与当前时间步的输入有关,而且与历史输入有关。因此,CAN可以利用Agent的整个观察和动作历史,从而弥补局部观察的不足。


MLP

参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值