自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 问答 (2)
  • 收藏
  • 关注

原创 DDPG输出边界值

我把a_boud改成了1,就是直接输出神经网络的结果,这个结果的范围为[-1,1];然后在与环境交互阶段再乘上我的动作系数0.06,就是把动作的范围映射为[-0.06.0.06]。2.将tanh函数换成了relu函数,仍然输出边界值,说明可能不是tanh函数的问题;3.莫凡的程序中,对神经网络输出的动作值进行了处理,即。1.使用自己的场景,更换为DQN算法,发现算法快速收敛,证明场景没有问题;4.在储存经验的时候,储存的是没有乘上动作系数的a值。经过上面的修改,算法能够收敛。

2023-09-20 10:00:55 382 1

原创 python定义梯形隶属度函数

【代码】python定义梯形隶属度函数。

2023-07-12 09:28:05 695 1

原创 强化学习奖励函数的归一化

将每个奖励分量进行归一化,然后再分配权重。

2023-07-09 17:03:42 647

原创 强化学习中average reward和episode 的关系

通过将先前平均奖励值乘以已完成的episode数量,我们可以获得前面所有episode的总奖励值。这种加权平均方法可以确保我们较好地反映了所有已完成episode的奖励情况,并且随着新的episode的进行,average reward会逐渐更新,以反映最新的奖励值情况。然后,我们将前面所有episode的总奖励值与新的episode奖励值相加,再除以已完成的episode数量+1,得到新的average reward。假设我们已经进行了多个episode,并记录了每个episode的奖励值。

2023-06-30 19:36:00 1279

原创 设计一个验证用户密码程序,用户只有三次机会输入错误,不过如果用户输入的内容中包含“*“则不计算在内。

实现如上功能:time=3while time>0: temp=input('请输入密码:') inpu=str(temp)#用户输入 ans='1105'#密码 strlen=len(inpu) if inpu==ans: print('密码正确,进入程序') break else: for i in range(strlen): if '*'==inpu[i]: ..

2022-02-24 19:49:09 2060

原创 Python~valueerror geosgeom问题的解决

报错:ValueError: GEOSGeom createLinearRing_ r returned a NULL pointer找了很多方法没有解决,最后发现是一些库的版本不对,shapely和matplotlib的版本装错了,卸了重装问题解决。

2021-11-22 21:04:42 642

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除