自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 个人笔记-常见激活函数汇总

双曲正切函数,相比于Sigmod,其输出中心到了0点(相当于Sigmod平移拉伸),取值范围。归一化将输入标准化到均值为0,方差为1的标准正态分布上,取值范围。一般取很小,0.01、0.1之类的。可扩大ReLU的取值范围。图片来源:http://t.csdnimg.cn/ZbuW2。,相比于argmax保留了较小分数部分的概率。小于0的部分用指数计算,接近自然梯度。分段斜坡函数,只取正值,取值范围。适用于多分类问题,取值范围。

2024-05-30 21:43:28 1442

原创 个人笔记-强化学习中On-policy和Off-policy的区别

理论上,用当前的policy生成了一条数据,就应该更新一次policy网络的参数,然后policy网络就变了,此时才能再生成第2条数据,依此类推,当生成到第N条数据的时候,policy网络都不知道变成什么鬼样子了,而如果我们用同一个policy连续生成N条数据才去更新一次policy网络的参数,这时的policy网络能跟一条条更新方式相比吗?于是在实践中,经常是每收集了N条数据才会去更新一次,这N条数据是一个batch,并且这N条数据是用同一个policy生成的。参考Reddit上的。

2024-05-22 15:52:08 803

原创 MAPPO论文翻译-The Surprising Effectiveness of PPO in Cooperative, Multi-Agent Games

Proximal Policy Optimization(PPO)是一种普遍的同策略策略强化学习算法,但在多智体环境中明显比异策略学习算法被利用得少。这往往是因为人们认为在多智体系统中,PPO的样本效率明显低于异策略方法。在本研究中,我们仔细研究了PPO在合作多智体环境中的表现。

2024-05-17 21:01:47 1756

原创 Win10/11 配置深度学习环境+安装Pytorch+TensorFlow

博客2:超详细离线安装配置PyTorch深度学习环境(CUDA11.7+torch1.13+torchvision0.14+torchaudio0.13+python3.7)TensorFlow在pycharm中不显示:file-setting-show All删掉现有解释器,+突变,添加新的,选Conda Environment中,下拉菜单。有幸遇见-b站最全最简洁易学的深度学习环境配置教程Anaconda+Pycharm+CUDA+CUdnn+PyTorch+Tensorflow。

2024-05-09 10:49:17 469

原创 【Python报错-环境】OMP: Error #15: Initializing libiomp5md.dll, but found - already initialized.

直接解决OMP: Error #15: Initializing libiomp5md.dll, but found libiomp5md.dll already initialized.报错问题_libiomp5md dll-CSDN博客。我的路径:C:\Users\Administrator(用户名)\.conda\envs\py38(虚拟环境名称)\Library\bin。将 libiomp5md.dll 改成 000-libiomp5md.dll。

2024-04-02 09:36:09 324

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除