强化学习中的蒙特卡洛(monte-carlo)算法和时序差分算法
【未完成】蒙特卡洛特点周期性更新:一整个周期结束了(到达了终点)才回进行一个更新(更新所有经历过的state的value)
所以是无偏估计
First-Visit:第一个周期经历了 某个状态s,第二个周期也第一次经历了这个状态s,待第二个周期结束之后,计算出了第二个周期s对应的G值(G = 这一步的reward + 打折系数 ^ 1 * 下一步的reward + 打折系数 ^ 2 * 下下步的rew
原创
2017-06-12 09:52:55 ·
6050 阅读 ·
0 评论