- 博客(5)
- 收藏
- 关注
原创 腾讯开悟(Aiarena)平台配置教程
一名梦想发顶会的MARL小白,想在SMAC之外找更多的测试Env,正好发现开悟在宣传他们的比赛,因为涉及到wsl的设置,在配置过程中走了挺多弯路,所以发帖记录下,希望能帮到大家。
2023-10-20 11:39:28 1517 10
原创 RL (Reinforcement Learing) 中的问题范式
Evaluating or improving policy that used to make decision Evaluating or improving policy different from that used to generate the data Without interaction of Env.
2023-09-11 17:10:46 85
原创 Optimizer(优化器) -- SGD、Momentum、Adam等介绍
在学习RL代码过程中,对优化器的概念与作用一直不是很清晰,因此重新学习记录一下。
2023-09-08 20:38:11 2227 1
原创 RL中state和observation异同
因此,对于SARL,state和observation所表达的一致;而对于MARL,state表示联合状态,observation表示单智能体的状态。observation表示局部状态,即agent的状态。二者都是一个episode内的状态。state表示全局状态。
2023-06-03 11:01:32 198
原创 LayerNorm 与 BatchNorm异同
思想与BatchNorm一致,都是通过将某一部分变为均值为0,方差为1来正则化。,并且可以通过学习参数 γ 将其变为方差/均值为任意值的参数。方法:Pytorch。
2023-03-14 15:09:52 733
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人