此为《强化学习》第四章。
策略评估
策略评估 (Policy Evaluation) 首先考虑已知策略 π(a|s) π ( a | s ) ,求解 vπ(s) v π ( s ) 。根据上一节中状态值函数的Bellman等式,有
vπ(s)=∑aπ(a|s)∑s′∑rp(s′,r|s,a)[r+γvπ(s′)] v π ( s ) = ∑ a π ( a | s ) ∑ s ′ ∑ r p ( s ′ , r | s , a ) [ r + γ v π ( s ′ ) ]
如果我们已知整个环境,那么对每个状态 s s 都可以列出一条这样的方程,联立,即可解出 。
此外,我们也可以使用迭代法求解。首先,随机在每个状态上给定一个值函数 v0(s) v 0 ( s ) ,然后按照如下的迭代进行:
vk+1(s)=∑