第九篇：强化学习Q-learning算法通俗介绍

算法channel

于 2023-06-08 08:02:39 发布

阅读量1.4k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xo3ylAF9kGs/article/details/131118322

版权

本文介绍了强化学习中的Q-learning算法，通过迷宫游戏的示例，阐述了Q表的概念和Q值的意义。Q-learning算法通过迭代更新Q值，学习最优策略，最终达到目标状态。文章详细解释了算法的步骤和更新规则，并提到了ε-greedy策略用于选择动作。

摘要由CSDN通过智能技术生成

你好，我是郭震（zhenguo)

今天介绍强化学习第九篇：Q-learning算法

前面我们介绍强化学习基本概念，马尔科夫决策过程，策略迭代和值迭代，这些组成强化学习的基础。

从今天开始逐步介绍常用强化学习算法，从最简单的Q-learning算法开始。简单并不代表不常用，有的简单会是经典，Q-learning算法就是这样的例子。

1 迷宫游戏

假设我们有一个迷宫地图，其中包含多个状态（格子），每个格子可以采取上、下、左、右四个动作进行移动。目标是从起始位置找到迷宫的出口，即到达终点位置。

首先，我们需要定义迷宫地图的状态和动作。状态可以表示为迷宫中的每个格子，动作可以表示为上、下、左、右四个方向。

如下图所示，对于图示白色格子，假定智能体走到这里，它只能向上、下运动，因为左右两侧是障碍物：

由此引出Q表，Q表用于存储每个状态动作对的Q值估计。

在图示迷宫中，Q表是一个二维表格，用于存储每个状态动作对的Q值估计。迷宫地图有4行4列，共有16个格子，且每个格子可以采取上、下、左、右四个动作，那么Q表的大小：[16,4] 二维表格。每一行对应着一个状态，每一列对应着一个动作。

<

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
第九篇：强化学习Q-learning算法通俗介绍

你好，我是郭震（zhenguo)今天介绍强化学习第九篇：Q-learning算法前面我们介绍强化学习基本概念，马尔科夫决策过程，策略迭代和值迭代，这些组成强化学习的基础。从今天开始逐步介绍常用强化学习算法，从最简单的Q-learning算法开始。简单并不代表不常用，有的简单会是经典，Q-learning算法就是这样的例子。1 迷宫游戏假设我们有一个迷宫地图，其中包含多个状态（格子），每个格子可以采...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。