记录一下自己的想法,不一定对
第一章
练习1.3 贪心策略
A:相比非贪心的,纯贪心算法会表现得更差,很可能会陷入局部最大值,到达不了全局最优解。
第二章
练习2.1
A:0.75。有0.5的概率以贪心策略选择动作,此时必然选择贪心动作。另外0.5的概率随机选择,一共有两个动作,所以每个动作被选择的概率为0.25。
练习2.2
A:建立起各个时刻的Q表:
1 | 2 | 3 | 4 | |
---|---|---|---|---|
t=0 | 0 | 0 | 0 | 0 |
t=1 | -1 | 0 | 0 | 0 |
t=2 | -1 | 1 | 0 | 0 |
t=3 | -1 | -0.5 | 0 | 0 |
t=4 | -1 | 0.33 | 0 | 0 |
t=5 | -1 | 0.33 | 0 | 0 |
t=1:随机或贪婪
t=2:随机或贪婪
t=3:随机或贪婪
t=4:随机
t=5:随机
练习2.3
A: 从长期来看ε=0.01表现会最好。选择最优动作的概率为(1-0.01)+0.01×0.1=99.1%。
而ε=0.1时,选择最优动作的概率为(1-0.1)+0.1×0.1=91%。
练习2.4
A:
Q n + 1 = Q n + α n [ R n − Q n ] = α n R n + ( 1 − α n ) Q n = α n R n + ( 1 − α n ) α n − 1 R n − 1 + ( 1 − α n ) ( 1 − α n − 1 ) Q n − 1 = α n R n + ( 1 − α n ) α n − 1 R n − 1 + ( 1 − α n ) ( 1 − α n − 1 ) α n − 2 R n − 2 + ( 1 − α n ) ( 1 − α n − 1 ) ( 1 − α n −