自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 腾讯开悟(Aiarena)平台配置教程

一名梦想发顶会的MARL小白,想在SMAC之外找更多的测试Env,正好发现开悟在宣传他们的比赛,因为涉及到wsl的设置,在配置过程中走了挺多弯路,所以发帖记录下,希望能帮到大家。

2023-10-20 11:39:28 1517 10

原创 RL (Reinforcement Learing) 中的问题范式

Evaluating or improving policy that used to make decision Evaluating or improving policy different from that used to generate the data Without interaction of Env.

2023-09-11 17:10:46 85

原创 Optimizer(优化器) -- SGD、Momentum、Adam等介绍

在学习RL代码过程中,对优化器的概念与作用一直不是很清晰,因此重新学习记录一下。

2023-09-08 20:38:11 2227 1

原创 RL中state和observation异同

因此,对于SARL,state和observation所表达的一致;而对于MARL,state表示联合状态,observation表示单智能体的状态。observation表示局部状态,即agent的状态。二者都是一个episode内的状态。state表示全局状态。

2023-06-03 11:01:32 198

原创 LayerNorm 与 BatchNorm异同

思想与BatchNorm一致,都是通过将某一部分变为均值为0,方差为1来正则化。,并且可以通过学习参数 γ 将其变为方差/均值为任意值的参数。方法:Pytorch。

2023-03-14 15:09:52 733

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除