ziiy0430-CSDN博客

文中采用的是gym库中的Pendulum-v1环境钟摆以随机位置开始，目标是将其摆动，使其保持向上直立。动作空间是连续的，值的区间为[-2,2]。每个step给的reward最低为-16.27，最高为0。

2025-08-08 10:50:02 335

(53 封私信) DQN基本概念和算法流程（附Pytorch代码） - 知乎操作流程如图所示。

2025-07-31 17:36:13 609

智能体以网格的左下角位置为起点，以网格的右下角位置为终点，目标是移动智能体到达终点位置，智能体每次可以在上、下、左、右这4个方向中移动一步，每移动一步会得到-1单位的奖励。

2025-07-25 15:23:24 219

起到提高运算效率作用。

2025-07-20 11:09:18 105

的意思是如果本文件执行，则下面的内容执行；如果本文件不作为main文件，则不执行。

2025-07-18 18:01:21 274

TA创建的收藏夹 TA关注的收藏夹

TA关注的人