- 博客(5)
- 收藏
- 关注
原创 DDPG算法——Pendulum实践(未完成)
文中采用的是gym库中的Pendulum-v1环境钟摆以随机位置开始,目标是将其摆动,使其保持向上直立。动作空间是连续的,值的区间为[-2,2]。每个step给的reward最低为-16.27,最高为0。
2025-08-08 10:50:02
335
原创 Q学习算法—CliffWalking悬崖寻路实践
智能体以网格的左下角位置为起点,以网格的右下角位置为终点,目标是移动智能体到达终点位置,智能体每次可以在上、下、左、右这4个方向中移动一步,每移动一步会得到-1单位的奖励。
2025-07-25 15:23:24
219
原创 【小土堆PyTorch深度学习快速入门教程】学习笔记-神经网络训练步骤
的意思是如果本文件执行,则下面的内容执行;如果本文件不作为main文件,则不执行。
2025-07-18 18:01:21
274
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人