第六章
时序差分学习
TD学习是结合蒙特卡洛和动态规划方法;像蒙特卡罗学习方法一样, TD方法可以直接从原始经验中学习,而不需要模型环境的动态模型。像动态规划一样,进行部分更新估计,而不需要全部学习完再进行估计。
6.1 TD预测
TD和蒙特卡洛一样用经验解决预测问题。蒙特卡洛公式:
Gt是时间t时时间返回值,α是定步长参数。但是必须等到episode结束后才能决定增量V (St)。
TD是只需要下一步的值便可以进行更新,TD(0)公式:
因为TD方法的更新部分基于现有的估计,我们说 这是一个像DP一样的迭代方法,
TD(0)更新中的括号中的数量是一种错误,测量St的估计值和更好的估计Rt + 1 +γV(St+ 1)之间的差值。t是V(St)中的错误,可以在时间内得到 t + 1,
TD比DP的优势是不需要环境模型,比MC的优势是只需知道下一状态的值,不需要等待一次episode完成。
Sarsa : 在策略TD控制
Sarsa算法:
Q-learning:离策略TD控制