第10篇：强化学习Q-learning求解迷宫问题代码实现

算法channel

于 2023-06-15 06:01:35 发布

阅读量765

点赞数 2

文章标签：人工智能

本文链接：https://blog.csdn.net/xo3ylAF9kGs/article/details/131238049

版权

本文详细介绍了如何使用Q-learning算法解决迷宫问题，从创建地图、定义动作、设置参数、初始化Q表到算法迭代的全过程。通过代码实现，展示了智能体如何在迭代中学习最佳路线，并分析了训练过程中步数与路线奖励值的关系，最终达到收敛。

摘要由CSDN通过智能技术生成

你好，我是郭震（zhenguo）

今天重新发布强化学习第10篇：强化学习Q-learning求解迷宫问题代码实现

我想对此篇做一些更加详细的解释。

1 创建地图

创建迷宫地图，包括墙网格，走到墙网格就是负奖励。

注意：空白可行走网格奖励值设置为负数，比如-1，是为减少路径中所经点数；如果设置为大于0的奖励值，路线中会出现冗余点。

import numpy as np

# 创建迷宫地图
exit_coord = (3, 3)
row_n, col_n = 4, 4

maze = np.zeros((row_n, col_n)) - 1

# 走出迷宫奖励10个积分
maze[exit_coord] = 10

# 走到墙网格，扣除10个积分
maze[(0, 3)] = -10
maze[(1, 0)] = -10
maze[(1, 2)] = -10
maze[(2, 2)] = -10
maze[(3, 0)] = -10

2 定义动作

定义动作集合

# 定义动作集合
action_n = 4
actions =

最低0.47元/天解锁文章

算法channel

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
第10篇：强化学习Q-learning求解迷宫问题代码实现

你好，我是郭震（zhenguo）今天重新发布强化学习第10篇：强化学习Q-learning求解迷宫问题代码实现我想对此篇做一些更加详细的解释。1 创建地图创建迷宫地图，包括墙网格，走到墙网格就是负奖励。注意：空白可行走网格奖励值设置为负数，比如-1，是为减少路径中所经点数；如果设置为大于0的奖励值，路线中会出现冗余点。importnumpyasnp#创建迷宫地图exit_coor...
复制链接

扫一扫