此为《强化学习》第三章 Finite Markov Decision Processes。
用户-环境接口
马尔科夫决策过程 (Markov Decision Process, MDP) 是建模在交互中学习的一种直观框架。学习者和决策者被称为用户 (Agent) ,其他和用户无关的但能和用户进行交互的部分被称为环境 (Environment) 。第 t t 时刻,用户处于状态
,得到奖励 Rt R t ,在某个策略下选择了行为 At A t ,从而进入下一个状态 St+1 S t + 1 ,得到下一个状态的奖励 Rt+1 R t + 1 ,如下图所示。
注意,有的时候环境并不会根据 (St,At) ( S t , A t ) 提供一组固定的 (St+1,Rt+1) ( S t + 1 , R t + 1 ) ,而是按概率分布随机选择一个,因此有
p(s′,r|s,a)≐Pr{
St+1=s′,Rt+1=r|St=s,At=a} p ( s ′ , r | s , a ) ≐ Pr { S t + 1 = s ′ , R t + 1 = r | S t = s , A t = a }
概率显然满足
∑s′∈S∑r∈Rp(s′,r|s,a)=1,(∀s∈S,a∈A) ∑ s ′ ∈ S ∑ r ∈ R p ( s ′ , r | s , a ) = 1 , ( ∀ s ∈ S , a ∈ A )
目标和奖励
在学习决策过程中,目标 (Goal) 是最大化累计奖励的期望值。
离散时刻下的回报
离散时刻 (Episodic) 下,我们可以把整个过程分解为一个个时刻。在 t t 时刻,我们定义期望回报 (Expected Return)
为未来各个时刻(直到最终时刻 T T )得到的奖励,即
通常,我们认为较近时刻得到的奖励应赋予更大的权重,因此我们给每个时刻的奖励加上一个衰减比例 (Discount Rate) γ∈[0,1] γ ∈ [ 0 , 1 ] ,即
Gt≐Rt+1+γRt+2+γ2Rt+3+...=∑k=0∞γkRt+1+k G t ≐ R t + 1 + γ R t + 2 + γ 2 R t + 3 + . . . = ∑ k = 0 ∞ γ k R t + 1 + k
显然有