你好,我是郭震(zhenguo)
今天介绍强化学习第九篇:Q-learning算法
前面我们介绍强化学习基本概念,马尔科夫决策过程,策略迭代和值迭代,这些组成强化学习的基础。
从今天开始逐步介绍常用强化学习算法,从最简单的Q-learning
算法开始。简单并不代表不常用,有的简单会是经典,Q-learning
算法就是这样的例子。
1 迷宫游戏
假设我们有一个迷宫地图,其中包含多个状态(格子),每个格子可以采取上、下、左、右四个动作进行移动。目标是从起始位置找到迷宫的出口,即到达终点位置。
首先,我们需要定义迷宫地图的状态和动作。状态可以表示为迷宫中的每个格子,动作可以表示为上、下、左、右四个方向。
如下图所示,对于图示白色格子,假定智能体走到这里,它只能向上、下运动,因为左右两侧是障碍物:
由此引出Q表,Q表用于存储每个状态动作对
的Q值估计。
在图示迷宫中,Q表是一个二维表格,用于存储每个状态动作对的Q值估计。迷宫地图有4行4列,共有16个格子,且每个格子可以采取上、下、左、右四个动作,那么Q表的大小:[16,4]
二维表格。每一行对应着一个状态,每一列对应着一个动作。