本文转自
马尔科夫决策过程:基于马尔科夫过程理论的随机动态系统的最优决策过程。它是马尔科夫过程与确定性动态规划相结合的产物,故又称为马尔科夫型随机动态规划。
具备马尔科夫链属性:
一个事件/物体可视为无数(状态,动作)的切片积分而成,而下一个状态 s′ 仅与当前状态 s 有关,与历史状态无关。例如:下棋的时候,每一步的决策都仅与当前棋局的状态有关,而下棋者是基于最终收益作为动作的策略依据。由
(S,A,R,P) 四个变量描述
S:State 状态序列;
A:Action 由状态映射到动作序列;
R:Reward 回报函数,立即回报;
P: 状态转移概率序列。引入值函数概率来衡量,当前状态的长期收益
3.1 状态值函数
Vπ=Eπ[∑i=0∞γiri|s0=s]
γ 为折扣因子:用来加权与当前状态时间最接近的动作影响力越大;
γ=0 时,相当于只考虑立即不考虑长期回报;
γ=1 时,将长期回报和立即回报看得同等重要。3.2 加入(状态、动作)转移概率后
Vπ=∑s′∈Sp(s′|s,a)[r(s′|s,a)+γVπ(s′)]
3.3 MDP的最优策略
π∗=argmaxπVπ(s)
即能够使得 Vπ(s) 在任意状态 s 下均能获得最大值的策略π 。如何进行求解?获得最优策略的三种方法:3.3.1、动态规划法
3.3.2、蒙特卡洛方法
3.3.3、时间差分法3.4 动态规划法(贝尔曼方程)
Q∗(s)=E[r(s′|s,a)+γmaxa′Q∗(s′,a′)|s0=s,as=a]
=∑p(s′|s,π(s))[r′(s′|s,π(s))+γmaxa∈A(s)Q∗(s′,a′)]
3.5 Q函数-(引入了动作的值函数)
3.5.1 定义动作值函数(Q函数)如下:
Qπ(s,a)=E[∑i=0∞γiri|s0=s,a0=a]
3.5.2 给定当前状态 s 和当前状态a ,在未来遵循策略 π ,那么系统将以概率 p(s′|s,a) 转向下个状态 s′ ,上式可以重写为:
Qπ(s,a)=∑s′∈Sp(s′|s,a)[r(s′|s,a)+γVπ(s′)]
3.3 值迭代
Q(s,a)=r+γ∗max(Q(基于s′下任意a′))