andlikell-CSDN博客

原创文献阅读：Counterfactual Multi-Agent Policy Gradients

（1）使用baseline 来从critic中区分不同动作的价值A=Q-V

2021-10-05 10:55:27 174

1.t=torch.as_strided(x, (3,3), (1, 2)) x=torch.tensor([[ 1.0560, -0.7634, 1.0131], [ 1.2284, 1.2512, -0.5880], [-0.9125, 1.3445, 0.8478]]) torch.as_strided(x, (3,3), (1, 2))中： (3,3)指 t 的size， 1指t的每一列为上一列的索引加1，如t的第一列第一行为 1.0560，那么下一列...

2021-09-16 16:37:37 275

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

weixin_44396511的博客

原创 tensorflow基础知识

原创 Python 操作

原创文献阅读：Counterfactual Multi-Agent Policy Gradients

原创 Pytorch中的张量tensor操作

空空如也

空空如也

原创 tensorflow基础知识

原创 Python 操作

原创 文献阅读：Counterfactual Multi-Agent Policy Gradients

原创 Pytorch中的张量tensor操作

空空如也

空空如也

原创文献阅读：Counterfactual Multi-Agent Policy Gradients