tree307-CSDN博客

原创个人笔记-常见激活函数汇总

双曲正切函数，相比于Sigmod，其输出中心到了0点（相当于Sigmod平移拉伸），取值范围。归一化将输入标准化到均值为0，方差为1的标准正态分布上，取值范围。一般取很小，0.01、0.1之类的。可扩大ReLU的取值范围。图片来源：http://t.csdnimg.cn/ZbuW2。，相比于argmax保留了较小分数部分的概率。小于0的部分用指数计算，接近自然梯度。分段斜坡函数，只取正值，取值范围。适用于多分类问题，取值范围。

2024-05-30 21:43:28 1442

原创个人笔记-强化学习中On-policy和Off-policy的区别

理论上，用当前的policy生成了一条数据，就应该更新一次policy网络的参数，然后policy网络就变了，此时才能再生成第2条数据，依此类推，当生成到第N条数据的时候，policy网络都不知道变成什么鬼样子了，而如果我们用同一个policy连续生成N条数据才去更新一次policy网络的参数，这时的policy网络能跟一条条更新方式相比吗？于是在实践中，经常是每收集了N条数据才会去更新一次，这N条数据是一个batch，并且这N条数据是用同一个policy生成的。参考Reddit上的。

2024-05-22 15:52:08 803

原创 MAPPO论文翻译-The Surprising Effectiveness of PPO in Cooperative, Multi-Agent Games

Proximal Policy Optimization（PPO）是一种普遍的同策略策略强化学习算法，但在多智体环境中明显比异策略学习算法被利用得少。这往往是因为人们认为在多智体系统中，PPO的样本效率明显低于异策略方法。在本研究中，我们仔细研究了PPO在合作多智体环境中的表现。

2024-05-17 21:01:47 1756

原创 Win10/11 配置深度学习环境+安装Pytorch+TensorFlow

博客2：超详细离线安装配置PyTorch深度学习环境(CUDA11.7+torch1.13+torchvision0.14+torchaudio0.13+python3.7)TensorFlow在pycharm中不显示：file-setting-show All删掉现有解释器，+突变，添加新的，选Conda Environment中，下拉菜单。有幸遇见-b站最全最简洁易学的深度学习环境配置教程Anaconda+Pycharm+CUDA+CUdnn+PyTorch+Tensorflow。

2024-05-09 10:49:17 469

原创【Python报错-环境】OMP: Error #15: Initializing libiomp5md.dll, but found - already initialized.

直接解决OMP: Error #15: Initializing libiomp5md.dll, but found libiomp5md.dll already initialized.报错问题_libiomp5md dll-CSDN博客。我的路径：C:\Users\Administrator（用户名）\.conda\envs\py38（虚拟环境名称）\Library\bin。将 libiomp5md.dll 改成 000-libiomp5md.dll。

2024-04-02 09:36:09 324

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 个人笔记-常见激活函数汇总

原创 个人笔记-强化学习中On-policy和Off-policy的区别

原创 MAPPO论文翻译-The Surprising Effectiveness of PPO in Cooperative, Multi-Agent Games

原创 Win10/11 配置深度学习环境+安装Pytorch+TensorFlow

原创 【Python报错-环境】OMP: Error #15: Initializing libiomp5md.dll, but found - already initialized.

空空如也

空空如也

原创个人笔记-常见激活函数汇总

原创个人笔记-强化学习中On-policy和Off-policy的区别

原创【Python报错-环境】OMP: Error #15: Initializing libiomp5md.dll, but found - already initialized.