值函数
策略: 状态s到动作a的映射:
π:S→A
值函数:值函数都是对应于特定的策略的,即
Vπ
对于策略
π
,状态s的值函数:
Vπ(s)=E[R(s0)+γR(s1)+γ2R(s2)+...|s0=s,π].
也可表示为Bellman形式,是一种迭代思想:
Vπ(s)=R(s)+γ∑s′∈SPsπ(s)(s′)Vπ(s′).
其中 Psπ(s)(s′) 表示对应于策略 π 的状态转移概率,即从s转到s’的概率
最优的值函数
对于某状态s的最优值函数用
V∗(s)
定义如下:
V∗(s)=maxπVπ(s).
由上式可知,最优的策略
π
对应最优的值函数、
写成Bellman方程就是:
V∗(s)=R(s)+maxa∈Aγ∑s′∈SPsa(s′)V∗(s′).
最优的策略
用
π∗
表示
在某一状态s下的最优策略定义如下:
π∗(s)=argmaxa∈A∑s′∈SPsa(s′)V∗(s′).
值迭代
策略迭代
其中 V:=Vπ 的计算可根据第一节值函数的定义计算