Chapter 6 Temporal-Difference Learning
MC方法是通过考虑采样轨迹,克服了模型未知给策略估计造成的困难,但是它需要在完成一个采样轨迹后再更新策略的值估计;而之前介绍的基于DP的策略迭代和值迭代算法在每执行一步策略后就进行值函数更新。相比而言,MC方法效率低得多。主要原因是MC方法没有利用学习任务的MDP结构。
TD Learning则结合了DP和MC的思想,能做到更高效的免模型学习。
1 Policy Evaluation
c o n s t a n t − α constant-\alpha constant−α MC:( G t G_t Gt是t时刻到结束的累计奖励)