- 博客(6)
- 问答 (2)
- 收藏
- 关注
原创 DDPG输出边界值
我把a_boud改成了1,就是直接输出神经网络的结果,这个结果的范围为[-1,1];然后在与环境交互阶段再乘上我的动作系数0.06,就是把动作的范围映射为[-0.06.0.06]。2.将tanh函数换成了relu函数,仍然输出边界值,说明可能不是tanh函数的问题;3.莫凡的程序中,对神经网络输出的动作值进行了处理,即。1.使用自己的场景,更换为DQN算法,发现算法快速收敛,证明场景没有问题;4.在储存经验的时候,储存的是没有乘上动作系数的a值。经过上面的修改,算法能够收敛。
2023-09-20 10:00:55 382 1
原创 强化学习中average reward和episode 的关系
通过将先前平均奖励值乘以已完成的episode数量,我们可以获得前面所有episode的总奖励值。这种加权平均方法可以确保我们较好地反映了所有已完成episode的奖励情况,并且随着新的episode的进行,average reward会逐渐更新,以反映最新的奖励值情况。然后,我们将前面所有episode的总奖励值与新的episode奖励值相加,再除以已完成的episode数量+1,得到新的average reward。假设我们已经进行了多个episode,并记录了每个episode的奖励值。
2023-06-30 19:36:00 1279
原创 设计一个验证用户密码程序,用户只有三次机会输入错误,不过如果用户输入的内容中包含“*“则不计算在内。
实现如上功能:time=3while time>0: temp=input('请输入密码:') inpu=str(temp)#用户输入 ans='1105'#密码 strlen=len(inpu) if inpu==ans: print('密码正确,进入程序') break else: for i in range(strlen): if '*'==inpu[i]: ..
2022-02-24 19:49:09 2060
原创 Python~valueerror geosgeom问题的解决
报错:ValueError: GEOSGeom createLinearRing_ r returned a NULL pointer找了很多方法没有解决,最后发现是一些库的版本不对,shapely和matplotlib的版本装错了,卸了重装问题解决。
2021-11-22 21:04:42 642
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人