无敌君君君-CSDN博客

原创腾讯开悟(Aiarena)平台配置教程

一名梦想发顶会的MARL小白，想在SMAC之外找更多的测试Env，正好发现开悟在宣传他们的比赛，因为涉及到wsl的设置，在配置过程中走了挺多弯路，所以发帖记录下，希望能帮到大家。

2023-10-20 11:39:28 2162 10

原创 RL (Reinforcement Learing) 中的问题范式

Evaluating or improving policy that used to make decision Evaluating or improving policy different from that used to generate the data Without interaction of Env.

2023-09-11 17:10:46 114

原创 Optimizer(优化器) -- SGD、Momentum、Adam等介绍

在学习RL代码过程中，对优化器的概念与作用一直不是很清晰，因此重新学习记录一下。

2023-09-08 20:38:11 2559 1

原创 RL中state和observation异同

因此，对于SARL，state和observation所表达的一致；而对于MARL，state表示联合状态，observation表示单智能体的状态。observation表示局部状态，即agent的状态。二者都是一个episode内的状态。state表示全局状态。

2023-06-03 11:01:32 272

原创 LayerNorm 与 BatchNorm异同

思想与BatchNorm一致，都是通过将某一部分变为均值为0，方差为1来正则化。，并且可以通过学习参数 γ 将其变为方差/均值为任意值的参数。方法：Pytorch。

2023-03-14 15:09:52 794

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 腾讯开悟(Aiarena)平台配置教程

原创 RL (Reinforcement Learing) 中的问题范式

原创 Optimizer(优化器) -- SGD、Momentum、Adam等介绍

原创 RL中state和observation异同

原创 LayerNorm 与 BatchNorm异同

空空如也

空空如也

原创腾讯开悟(Aiarena)平台配置教程