强化学习实践一：迭代法评估4*4方格世界下的随机策略

最新推荐文章于 2024-08-10 19:43:27 发布

xyk_hust

最新推荐文章于 2024-08-10 19:43:27 发布

阅读量3.3k

点赞数 3

分类专栏：强化学习实践强化学习实践

本文链接：https://blog.csdn.net/xyk_hust/article/details/85543027

版权

本文通过Python代码实现David Silver强化学习课程中的4*4方格世界案例，演示动态规划中的策略评估、策略迭代和价值迭代。文中首先介绍了问题背景，包括状态空间、行动空间、转移概率、即时奖励和策略。接着，利用Python定义了环境动力学，创建了随机策略和贪婪策略。通过策略评估比较了随机策略和贪婪策略的结果。然后，进行了策略迭代和价值迭代，展示了如何找到最优策略和状态价值。最后，验证了价值迭代在少数迭代次数后即可收敛到最优解。

摘要由CSDN通过智能技术生成

本篇用代码演示David Silver《强化学习RL》第三讲动态规划寻找最优策略中的示例——方格世界，即用动态规划算法通过迭代计算来评估4*4方格世界中的一个随机策略。具体问题是这样：

已知（如上图）：

状态空间 S： $S_{1} - S_{14}$ 为非终止状态； $S_{0}$ ， $S_{15}$ 终止状态，图中灰色方格所示两个位置；
行为空间 A：{n, e, s, w} 对于任何非终止状态可以有向北、东、南、西移动四个行为；
转移概率 P：任何试图离开方格世界的动作其位置将不会发生改变，其余条件下将100%地转移到动作指向的位置；
即时奖励 R：任何在非终止状态间的转移得到的即时奖励均为-1，进入终止状态即时奖励为0；
衰减系数 γ：1；

当前策略π：个体采用随机行动策略，在任何一个非终止状态下有均等的几率往任意可能的方向移动，即π(n|•) = π(e|•) = π(s|•) = π(w|•) = 1/4。

问题：评估在这个方格世界里给定的策略。

该问题等同于：求解该方格世界在给定策略下的（状态）价值函数，也就是求解在给定策略下，该方格世界里每一个状态的价值。

我们使用Python编写代码解决该问题。

声明状态

S = [i for i in range(16)]

声明行为空间

A = ['n','e', 's', 'w']

结合方格世界的布局特点，简易声明行为对状态的改变

ds_actions = {"n": -4, "e": 1, "s": 4, "w": -1}

环境动力学

模拟小型方格世界的环境动力学特征：

Args:

    s 当前状态int 0 - 15
    a 行为 str in ['n','e','s','w'] 分别表示北、东、南、西

Returns: tuple (s_prime, rew

最低0.47元/天解锁文章

xyk_hust

关注

3
点赞
踩
15

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

强化学习实践一 ：迭代法评估4*4方格世界下的随机策略

强化学习实践一：迭代法评估4*4方格世界下的随机策略