原文连接:
目录
贡献
1.提出了一种新的多目标多智能体协同决策方法MO-MIX,该方法能够根据输入偏好生成多种策略,并最终得到稠密且高质量的Pareto集近似。
2.提出了一种探索引导方法。在训练过程中引导算法的探索方向,改善了最终Pareto集逼近的一致性。
Pareto集
MO-MIX
条件代理网络(CAN)
CAN是CTDE框架的分散执行部分。
目的:估计行动价值向量函数Q,其中包括所有目标的价值函数。
CAN由几个多层感知器(MLP)层和一个门递归单元(GRU)层组成。
GRU
参考
【深度学习 搞笑教程】30 门控神经单元GRU | 草履虫都能听懂 零基础入门 | 持续更新_哔哩哔哩_bilibili
GRU是一种能够更好地处理序列信息的递归神经网络。GRU的输出不仅与当前时间步的输入有关,而且与历史输入有关。因此,CAN可以利用Agent的整个观察和动作历史,从而弥补局部观察的不足。
MLP
参考