强化学习 Sutton习题

rsmallblue

已于 2022-07-07 22:23:03 修改

阅读量516

点赞数

分类专栏：强化学习文章标签：人工智能

于 2022-04-14 15:56:02 首次发布

本文链接：https://blog.csdn.net/weixin_44231114/article/details/124174012

版权

这篇博客主要探讨了强化学习中贪心策略的局限性，以及ε-贪心算法在不同ε值下的表现。在练习中，详细解答了关于策略选择概率、Q表更新和长期性能的问题，揭示了动态调整探索与利用平衡的重要性。

摘要由CSDN通过智能技术生成

记录一下自己的想法，不一定对

第一章

练习1.3 贪心策略

A：相比非贪心的，纯贪心算法会表现得更差，很可能会陷入局部最大值，到达不了全局最优解。

第二章

练习2.1

A:0.75。有0.5的概率以贪心策略选择动作，此时必然选择贪心动作。另外0.5的概率随机选择，一共有两个动作，所以每个动作被选择的概率为0.25。

练习2.2

A:建立起各个时刻的Q表：

	1	2
t=0	0	0
t=1	-1	0
t=2	-1	1
t=3	-1	-0.5
t=4	-1	0.33
t=5	-1	0.33

t=1:随机或贪婪
t=2:随机或贪婪
t=3:随机或贪婪
t=4:随机
t=5:随机

练习2.3

A: 从长期来看ε=0.01表现会最好。选择最优动作的概率为(1-0.01)+0.01×0.1=99.1%。
而ε=0.1时，选择最优动作的概率为(1-0.1)+0.1×0.1=91%。

练习2.4

A：

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

rsmallblue

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

强化学习sutton第二版习题答案.rar

04-29

强化学习sutton第二版习题答案

强化学习（第二版）Sutton - 第二章习题答案和解析

热门推荐

bug404

09-04

1万+

强化学习（第二版）Sutton - 习题答案和解析第二章2.1 在$\ 第二章 2.1 在$\

参与评论您还未登录，请先登录后发表或查看评论

强化学习第二章习题

zengdanli的博客

07-15

747

强化学习 马尔可夫决策，奖励过程，贝尔曼等式

【一起入门DeepLearning】中科院深度学习_期末复习题2018-2019第七题：强化学习

vector的博客

05-29

1349

中科院深度学习_期末复习题2018-2019第七题：强化学习

2022-01 task01 强化学习基础（教程第一章+对应习题）（2天）

张一

07-12

1168

强化学习(Reinforcement Learning) 用来学习如何做出一系列好的决策。一个智能体(agent)怎么在一个复杂不确定的环境(environment)里面极大化能获得的奖励。agent在环境里面获得状态，利用这个状态输出一个动作action(决策)，然后这个决策会放到环境中去，环境根据agent采取的决策，输出下一个状态以及当前动作action(决策)得到的奖励。Agent的目的是为了尽可能多的从环境中获得奖励。人工智能的基本挑战是学习在不确定的情况下做出的好的决策。监督学习：1）输入的数据

强化学习 第二版习题答案.zip

02-13

第二版答案，不是第一版拿来充数的，第二章到第十二章，只有这么多

RLbook-2nd-Sutton-Answer_Sutton_youthock_强化学习_RLbook2020_monthz1

10-03

《RLbook-2nd-Sutton-Answer_Sutton_youthock_强化学习_RLbook2020_monthz1》这个资源，如其标题所示，是理查德·S·萨顿（Richard S. Sutton）所著《强化学习》第二版的英文原版答案，对于深入理解这本书中的概念和...

Solutions (Selected) Reinforcement Learning_Reinforcement_学习_强化学

10-04

通过解决书中的习题，读者可以深入理解以下强化学习的重要知识点： 1. 环境建模：学习如何定义状态、动作和奖励函数。 2. 策略评估：估算策略的价值，如值迭代和策略迭代算法。 3. 策略改进：找到比当前策略更好的...

rlai-exercises:强化学习练习解决方案

05-28

《强化学习：入门》第二版练习题解决方案理查德·萨顿（Richard S. Sutton）和安德鲁·G·巴托（Andrew G. Barto）的书。您可以在找到该书的在线版本。我无法保证任何解决方案的正确性，因此，如果您发现任何错误...

强化学习习题-动态规划策略学习格子问题

敲代码的乔帮主

01-03

2923

题目描述-格子游戏：每一个格子等概率向着4个方向移动，每次移动一步，收益为 -1 ，移动到出口结束游戏。若当前移动会导致出界，则移动后位置不变：（1）策略估值：使用动态规划方法求当前策略下每一格子对应的状态估值解: (2) 策略提升：写出上述估值函数对应的贪心策略解：（3）最优策略：求解该问题最优策略及其相应的状态估值解：状态不变...

Reinforcement Learning: An Introduction最新版习题解答（第一版本）

12-28

Reinforcement Learning: An Introduction最新版习题解答

《强化学习》第五章蒙特卡洛方法

midnight_DJ的博客

12-11

6533

第五章蒙特卡洛方法文章目录第五章蒙特卡洛方法5.1 蒙特卡洛预测例5.1 二十一点练习 5.1练习5.2例5.2 肥皂泡5.2 动作价值的蒙特卡洛估计练习5.35.3 蒙特卡洛控制练习5.4例5.3 解决二十一点问题5.4 没有试探性出发假设的蒙特卡洛控制5.5 基于重要度采样的离轨策略练习5.5例5.4 对二十一点游戏中的状态值的离轨策略估计例5.5 无穷方差练习 5.6练习5.7练习5.85.6 增量式实现练习5.9练习5.105.7 离轨策略蒙特卡洛控制练习5.11练习5.12（编程）*折扣敏感

强学学习总结（二）：简答题

LuoMin2523的博客

06-28

1251

请简述 强化学习的特征请举例生活中强化学习的例子基于价值函数的迭代和基于策略函数的迭代的强化学习方法有什么区别？

人工智能课程笔记（7）强化学习（基本概念 Q学习深度强化学习 附有大量例题）

hanmo22357的博客

04-29

3821

强化学习和深度学习都是机器学习的分支，但是两者在方法和应用场景上有所不同。强化学习中包含几个基本概念：智能主体、状态、动作、奖励和环境。在强化学习中，智能主体通过不断与环境交互，并根据获得的奖励来不断调整自己的策略，最终学习到最优的行动策略。智能主体通过观察当前状态，选择最优的动作，并获得相应的奖励，不断迭代学习，从而实现任务的优化。强化学习、有监督学习和无监督学习是机器学习中三种不同的学习范式，它们的区别如下：总体来说，监督学习需要有标注的数据作为输入，无监督学习不需要标注的数据，而强化学习则是通过与环境

Richard S.Sutton强化学习（第二版）第二章习题答案2.4

qq_40121479的博客

09-17

488

2.4 本题在中文版的书中翻译可能不是很准确（个人推断），我寻找了英文原题如下： If the step-size parameters, αn, are not constant, then the estimate Qn is a weighted average of previously received rewards with a weighting difffferent from that given by (2.6). What is the weighting on each pr

精确解：关于Sutton《Reinforcement Learning:An Introduction》中Example 3.5 Gridworld

最新发布

weixin_43047969的博客

12-09

386

对比之前采用迭代算法的结果：（原文链接：https://blog.csdn.net/weixin_43047969/article/details/134865633）其中：v是一个状态矢量（v1,v2,…, v25)，将5x5的网格进行编码得到，如图1所示。GridA是一个25x25的概率矩阵，Beta是一个1x25的收益矢量。在保留4位小数的情况下，二者是一样的！图1 状态编码示意图。

【重磅总结】170道强化学习面试题目汇总，助力实验室RLer冲刺求职季！

深度强化学习实验室：一个“开源开放、共享共进”的强化学习学术组织。

08-11

1457

深度强化学习实验室官网：http://www.neurondance.com/论坛：http://deeprl.neurondance.com/问题汇总蒙特卡洛、TD、动态规划的关系？DQ...

电子科技大学人工智能期末复习笔记（二）：MDP与强化学习

Vec_Kun的博客

02-08

3814

本复习笔记基于李晶晶老师的课堂PPT与复习大纲，供自己期末复习与学弟学妹参考用。在上一节中，我们提到了Minimax是一种悲观算法，即考虑最坏的情况（Worst Case）从而使损失最小化。然而在实际操作过程中，对手并不是始终能做到最优决策，会有一定概率的失误，因此我们应当计算平均能得到的分数。当不确定的结果会偶然出现时，也就是在不确定性搜索（Non-Deterministic Search）下，我们的算法就需要做出调整。

【转载】再励学习面试真题（强化学习面试真题）

07-15

1315

原文地址： https://zhuanlan.zhihu.com/p/33133828 （本文最开始写在WPS里，往知乎粘贴后格式和高亮都没有了。大家可以从CSDN再励学习面试真题-CSDN下载下载本文。百度文库、道客巴巴强行不让公开。）前言本人于17年4月对再励学习产生了兴趣，8月将其定为自己未来学习的核心。在10月~12月的求职中，一直将增强学习作为自己简历的要点。这两个...

强化学习：第二版（Sutton草稿2018）

"《强化学习：第二版》(Reinforcement Learning: Second Edition) - Sutton (draft 2018)" 这本书是强化学习领域的经典教材，由Richard S. Sutton和Andrew G. Barto共同撰写，2018年的第二版草稿已经完成，可能在第...