- 博客(4)
- 收藏
- 关注
原创 文献阅读:Counterfactual Multi-Agent Policy Gradients
(1)使用baseline 来从critic中区分不同动作的价值A=Q-V
2021-10-05 10:55:27 174
原创 Pytorch中的张量tensor操作
1.t=torch.as_strided(x, (3,3), (1, 2)) x=torch.tensor([[ 1.0560, -0.7634, 1.0131], [ 1.2284, 1.2512, -0.5880], [-0.9125, 1.3445, 0.8478]]) torch.as_strided(x, (3,3), (1, 2))中: (3,3)指 t 的size, 1指t的每一列为上一列的索引加1,如t的第一列第一行为 1.0560,那么下一列...
2021-09-16 16:37:37 275
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人