强化学习
文章平均质量分 84
tree307
这个作者很懒,什么都没留下…
展开
-
个人笔记-常见激活函数汇总
双曲正切函数,相比于Sigmod,其输出中心到了0点(相当于Sigmod平移拉伸),取值范围。归一化将输入标准化到均值为0,方差为1的标准正态分布上,取值范围。一般取很小,0.01、0.1之类的。可扩大ReLU的取值范围。图片来源:http://t.csdnimg.cn/ZbuW2。,相比于argmax保留了较小分数部分的概率。小于0的部分用指数计算,接近自然梯度。分段斜坡函数,只取正值,取值范围。适用于多分类问题,取值范围。原创 2024-05-30 21:43:28 · 1452 阅读 · 0 评论 -
个人笔记-强化学习中On-policy和Off-policy的区别
理论上,用当前的policy生成了一条数据,就应该更新一次policy网络的参数,然后policy网络就变了,此时才能再生成第2条数据,依此类推,当生成到第N条数据的时候,policy网络都不知道变成什么鬼样子了,而如果我们用同一个policy连续生成N条数据才去更新一次policy网络的参数,这时的policy网络能跟一条条更新方式相比吗?于是在实践中,经常是每收集了N条数据才会去更新一次,这N条数据是一个batch,并且这N条数据是用同一个policy生成的。参考Reddit上的。原创 2024-05-22 15:52:08 · 909 阅读 · 0 评论 -
MAPPO论文翻译-The Surprising Effectiveness of PPO in Cooperative, Multi-Agent Games
Proximal Policy Optimization(PPO)是一种普遍的同策略策略强化学习算法,但在多智体环境中明显比异策略学习算法被利用得少。这往往是因为人们认为在多智体系统中,PPO的样本效率明显低于异策略方法。在本研究中,我们仔细研究了PPO在合作多智体环境中的表现。原创 2024-05-17 21:01:47 · 1893 阅读 · 0 评论