强化学习 Sutton习题

这篇博客主要探讨了强化学习中贪心策略的局限性,以及ε-贪心算法在不同ε值下的表现。在练习中,详细解答了关于策略选择概率、Q表更新和长期性能的问题,揭示了动态调整探索与利用平衡的重要性。
摘要由CSDN通过智能技术生成

记录一下自己的想法,不一定对

第一章

练习1.3 贪心策略

A:相比非贪心的,纯贪心算法会表现得更差,很可能会陷入局部最大值,到达不了全局最优解。


第二章

练习2.1

A:0.75。有0.5的概率以贪心策略选择动作,此时必然选择贪心动作。另外0.5的概率随机选择,一共有两个动作,所以每个动作被选择的概率为0.25。

练习2.2

A:建立起各个时刻的Q表:

1 2 3 4
t=0 0 0 0 0
t=1 -1 0 0 0
t=2 -1 1 0 0
t=3 -1 -0.5 0 0
t=4 -1 0.33 0 0
t=5 -1 0.33 0 0

t=1:随机或贪婪
t=2:随机或贪婪
t=3:随机或贪婪
t=4:随机
t=5:随机

练习2.3

A: 从长期来看ε=0.01表现会最好。选择最优动作的概率为(1-0.01)+0.01×0.1=99.1%。
而ε=0.1时,选择最优动作的概率为(1-0.1)+0.1×0.1=91%。

练习2.4

A:
Q n + 1 = Q n + α n [ R n − Q n ] = α n R n + ( 1 − α n ) Q n = α n R n + ( 1 − α n ) α n − 1 R n − 1 + ( 1 − α n ) ( 1 − α n − 1 ) Q n − 1 = α n R n + ( 1 − α n ) α n − 1 R n − 1 + ( 1 − α n ) ( 1 − α n − 1 ) α n − 2 R n − 2 + ( 1 − α n ) ( 1 − α n − 1 ) ( 1 − α n −

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值