一、马尔科夫决策过程(Markov Decision Process)MDP
- 假设状态s下采取动作a,转到下一个状态s′的概率,表示为 P s s ′ a P_{ss'}^a Pss′a
- 如果按照真实的环境转化过程看,转化到下一个状态s′的概率既与上一个状态s有关,还与上上个状态,以及上上上个状态有关。这一会导致我们的环境转化模型非常复杂,复杂到难以建模。因此我们需要对强化学习的环境转化模型进行简化。简化的方法就是假设状态转化的马尔科夫性,也就是假设转化到下一个状态s′的概率仅与上一个状态s有关,与之前的状态无关。用公式表示就是:
P s s ′ a = E ( S t + 1 = s ′ ∣ S t = s , A t = a ) P_{ss'}^a = E(S_{t+1}=s'|S_t = s,A_t=a) Pss′a=E(St+1=s′∣St=s,At=a) - 马尔科夫决策过程由元组 ( S , A , P , R , γ ) (S,A,P,R,\gamma ) (S,A,P,R,γ)组成,S为有限状态集,A为有限的动作集,P为状态转移概率,R为回报函数, γ \gamma γ为折扣因子。
- 策略函数: π ( a ∣ s ) = p [ A t = a ∣ S t = s ] \pi (a|s) = p[A_t =a|S_t=s] π(a∣s)=p[At=a∣St=s],:策略 π \pi π在每个状态 s 指定一个动作概率。如果给出的策略 π \pi π是确定性的,那么策略 π \pi π在每个状态 s 指定一个确定的动作。
- 累计回报函数: G t = R t + 1 + γ R t + 2 + … = ∑ k = 0 ∞ γ k R t + k + 1 G_t = R_{t+1}+\gamma R_{t+2} + … = \sum_{k=0}^\infty \gamma ^kR_{t+k+1} Gt=Rt+1+γRt+2+…=∑k=0∞γkRt+k+1
- 状态价值函数: v π ( s ) = E π ( R t + 1 + γ R t + 2 + γ 2 R t + 3 + … ∣ S t = s ) v_\pi(s) =E_\pi(R_{t+1}+\gamma R_{t+2}+\gamma^2R_{t+3}+…|S_t=s) vπ(s)=E