[通俗易懂]《动手学强化学习》学习笔记2-第2、3、4章

荒野火狐

已于 2024-04-11 20:10:54 修改

阅读量574

点赞数 23

分类专栏：强化学习文章标签：学习笔记

于 2024-04-10 21:42:01 首次发布

本文链接：https://blog.csdn.net/weixin_56760882/article/details/137461874

版权

强化学习专栏收录该内容

9 篇文章 1 订阅

订阅专栏

文章目录

前言
小总结（前文回顾）
第二章多臂老虎机
- 2.2.2形式化描述
第三章马尔可夫决策过程
- 3.6 占用度量代码
- 3.6 占用度量定理2
第四章动态规划算法
- 4.3.3 策略迭代算法代码
总结

前言

参考：
《动手学强化学习》作者：张伟楠，沈键，俞勇
动手学强化学习网页版
 动手学强化学习 github代码
 动手学强化学习视频
 强化学习入门这一篇就够了！！！万字长文（讲的很好）
+
参考：
强化学习入门（第二版）读书笔记

小总结（前文回顾）

先简单总结一下第一章所学的知识点：
我做了一个思维导图很方便理解
之后学习完会在这里一直更新。

这里2、3、4章作者讲的非常好，就是得多读几遍，这里只做下当时学习时没弄明白的笔记。

补充一下：第2、3、4章要下载的库
#第2章
pip install numpy
pip install matplotlib
#第4章
pip install pygame
pip insatll gym

第二章多臂老虎机

第二章的代码基本上认真看都能看懂，和伪代码一对照看，很容易就看懂了。

random.uniform(x, y) 是指在均匀分布下（所有值出现的概率相等），随机生成[x,y]内的浮点型数，包含x和y。

2.2.2形式化描述

在这里插入图片描述
这里"R(·|a)"通常表示在给定条件"a"的情况下，某个随机变量的概率分布函数。这里的”·"是一个占位符，代表随机变量的可能值。例如，如果我们有一个随机变量X，那么"R(x|a)"将表示在条件"a"下，随机变量X取值为x的概率。

第三章马尔可夫决策过程

3.6 占用度量代码

占用度量定义：
在这里插入图片描述

问题：红色箭头和公式对不上
在这里插入图片描述
这一部分的估计实际概率就相当于

原因：
这样就和公式对应了。

3.6 占用度量定理2

问题：不理解这个定理2是什么意思。
在这里插入图片描述
目前自己理解为：
分母上的a’为：除了状态s目前的动作a外的其他动作。
这里分母为能访问到状态s下的其他动作的概率的和。

但没有具体程序，也没有实际例子，不能断定。

第四章动态规划算法

4.5冰湖环境中，需要改成如下代码。

import gym
env = gym.make("FrozenLake-v1", render_mode="human")
env = env.unwrapped  # 解封装才能访问状态转移矩阵P
env.reset()  # 重置环境
env.render()  # 环境渲染,通常是弹窗显示或打印出可视化的环境

4.3.3 策略迭代算法代码

公式为：
在这里插入图片描述
问题：
1、是因为这个环境是基于模型的，所以要乘以状态转移概率吗？
2、这里+= 用了累加，可公式中只有对状态转移函数进行了累加求和，这个r回报没有进行累加求和，为什么代码里用了+=的形式，而不是先+=后面的状态转移函数再进行单独的相加r？
在这里插入图片描述
原因：这里的r(s,a)根据先前书上的定义，r(s,a)=E(r|S=s,A=a),也就是说这个已经是求过期望后的了。
如果它是求过期望前：则公式为这样：

那么两个问题就迎刃而解了。这里qsa有点迷惑性质
1、这里的p对应的是p(s’|s,a)。
若不是基于模型的，或者说不是这个算法的，大概率是没有这个p的，看每个算法的公式异同了。
2、这里的累加放在这里就对应第二个累加求和的符号。

总结

其余代码多看两遍就理解了，和伪代码都对的上。

荒野火狐

关注

23
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
[通俗易懂]《动手学强化学习》学习笔记2-第2、3、4章

参考：《动手学强化学习》作者：张伟楠，沈键，俞勇动手学强化学习网页版动手学强化学习 github代码动手学强化学习视频强化学习入门这一篇就够了！！！万字长文（讲的很好）强化学习入门（第二版）读书笔记我做了一个思维导图很方便理解之后学习完会在这里一直更新。这里2、3、4章作者讲的非常好，就是得多读几遍，这里只做下当时学习时没弄明白的笔记。其余代码多看两遍就理解了，和伪代码都对的上。
复制链接

扫一扫