(1)使用baseline 来从critic中区分不同动作的价值A=Q-V
文献阅读:Counterfactual Multi-Agent Policy Gradients
最新推荐文章于 2024-11-08 14:32:06 发布
(1)使用baseline 来从critic中区分不同动作的价值A=Q-V