我才不是蠢蛋-CSDN博客

原创 DDPG输出边界值

我把a_boud改成了1，就是直接输出神经网络的结果，这个结果的范围为[-1,1]；然后在与环境交互阶段再乘上我的动作系数0.06，就是把动作的范围映射为[-0.06.0.06]。2.将tanh函数换成了relu函数，仍然输出边界值，说明可能不是tanh函数的问题；3.莫凡的程序中，对神经网络输出的动作值进行了处理，即。1.使用自己的场景，更换为DQN算法，发现算法快速收敛，证明场景没有问题；4.在储存经验的时候，储存的是没有乘上动作系数的a值。经过上面的修改，算法能够收敛。

2023-09-20 10:00:55 382 1

原创 python定义梯形隶属度函数

【代码】python定义梯形隶属度函数。

2023-07-12 09:28:05 695 1

原创强化学习奖励函数的归一化

将每个奖励分量进行归一化，然后再分配权重。

2023-07-09 17:03:42 647

原创强化学习中average reward和episode 的关系

通过将先前平均奖励值乘以已完成的episode数量，我们可以获得前面所有episode的总奖励值。这种加权平均方法可以确保我们较好地反映了所有已完成episode的奖励情况，并且随着新的episode的进行，average reward会逐渐更新，以反映最新的奖励值情况。然后，我们将前面所有episode的总奖励值与新的episode奖励值相加，再除以已完成的episode数量+1，得到新的average reward。假设我们已经进行了多个episode，并记录了每个episode的奖励值。

2023-06-30 19:36:00 1279

原创设计一个验证用户密码程序，用户只有三次机会输入错误，不过如果用户输入的内容中包含“*“则不计算在内。

实现如上功能：time=3while time>0: temp=input('请输入密码：') inpu=str(temp)#用户输入 ans='1105'#密码 strlen=len(inpu) if inpu==ans: print('密码正确，进入程序') break else: for i in range(strlen): if '*'==inpu[i]: ..

2022-02-24 19:49:09 2060

原创 Python～valueerror geosgeom问题的解决

报错：ValueError: GEOSGeom createLinearRing_ r returned a NULL pointer找了很多方法没有解决，最后发现是一些库的版本不对，shapely和matplotlib的版本装错了，卸了重装问题解决。

2021-11-22 21:04:42 642

TA关注的人

yuuyy123的博客

原创 DDPG输出边界值

原创 python定义梯形隶属度函数

原创强化学习奖励函数的归一化

原创强化学习中average reward和episode 的关系

原创设计一个验证用户密码程序，用户只有三次机会输入错误，不过如果用户输入的内容中包含“*“则不计算在内。

原创 Python～valueerror geosgeom问题的解决

空空如也

强化学习收敛但效果不好

强化学习DQN做动态障碍物避障

DQN遇到大状态空间效果差

运行出错了呢苍天啊为什么

原创 DDPG输出边界值

原创 python定义梯形隶属度函数

原创 强化学习奖励函数的归一化

原创 强化学习中average reward和episode 的关系

原创 设计一个验证用户密码程序，用户只有三次机会输入错误，不过如果用户输入的内容中包含“*“则不计算在内。

原创 Python～valueerror geosgeom问题的解决

空空如也

强化学习收敛但效果不好

强化学习DQN做动态障碍物避障

DQN遇到大状态空间效果差

运行出错了呢 苍天啊为什么

原创强化学习奖励函数的归一化

原创强化学习中average reward和episode 的关系

原创设计一个验证用户密码程序，用户只有三次机会输入错误，不过如果用户输入的内容中包含“*“则不计算在内。

运行出错了呢苍天啊为什么