理解几个与马尔科夫相关的概念
马儿科夫过程
定义:在一个时序过程中,如果
t
+
1
t+1
t+1时刻的状态仅取决于
t
t
t 时刻的状态
S
t
S_t
St 而与
t
t
t之前的任何状态都无关时,则认为
t
t
t 时刻的状态
S
t
S_t
St 具有马尔科夫性(Markov property)。
extend: 若过程中的每一个状态都具有马尔科夫性,则这个过程具备马尔科夫性。具备了马尔科夫性的随机过程称为马尔科夫过程(Markov process),又称马尔科夫链(Markov chain)
举个简单例子,比如下棋,决定下一步的行动一般来说,不需要关注对方的历史的行动;什么是非马尔科夫过程呢?比如人的一生,具备不同经历的人在同样情景下做出的选择往往都不一样,很明显不马尔科夫。
描述一个马尔科夫过程的核心是状态转移概率矩阵:
P
a
a
′
=
P
[
S
t
+
1
=
s
′
∣
S
t
+
1
=
s
]
P_{aa'}=P[S_{t+1}=s'|S_{t+1}=s]
Paa′=P[St+1=s′∣St+1=s]
状态转移矩阵描述了从任何一个状态 s 到其后所有后续状态s’ 的状态转移概率。
学生问题
描述了一个假想的学生学习一门课程的马尔科夫过程。在这个随机过程中,学生需要顺利完成三节课并且通过最终的考试来完成这门课程的学习。当学生处在第一节课中时,会有50% 的几率拿起手机浏览社交软件信息,另有50% 的几率完成该节课的学习进入第二节课。一旦学生在第一节课中浏览手机社交软件信息,则有90% 的可能性继续沉迷于浏览,而仅有10%的几率放下手机重新听讲第一节课。学生处在第二节课的时有80% 的几率听完第二节课顺利进入到第三节课的学习中,也有20% 的几率因课程内容枯燥或难度较大而休息或者退出。学生在学习第三节课内容后,有60% 的几率通过考试继而100% 的进入休息状态,也有40% 的几率因为过于兴奋而出去娱乐泡吧,随后可能因为忘掉了不少学到的东西而分别以20%,40% 和50% 的概率需要重新返回第一、二、三节课中学习。
MDP vs MRP
马尔科夫过程只涉及到状态之间的转移概率,并未触及强化学习问题中伴随着状态转换的奖励反馈。如果把奖励考虑进马尔科夫过程,则成为马尔科夫奖励过程(Markov reward process, MRP)。它是由
(
S
,
P
,
R
,
γ
)
(S, P, R, γ)
(S,P,R,γ)构成的一个元组,其中:
S 是一个有限状态集
P 是集合中状态转移概率矩阵:
P
s
s
′
=
P
[
S
t
+
1
=
s
′
∣
S
t
+
1
=
s
]
P_{ss′ }=P[S_{t+1}=s'|S_{t+1}=s]
Pss′=P[St+1=s′∣St+1=s]
R 是一个奖励函数:
R
s
=
E
[
R
t
+
1
∣
S
t
=
s
]
R_s = E [R_{t+1}|S_t = s]
Rs=E[Rt+1∣St=s]
γ 是一个衰减因子:
γ
∈
[
0
,
1
]
\gamma ∈ [0, 1]
γ∈[0,1]
**奖励表达的是 到达该状态后(或者是离开该状态后)学生可以获得的奖励。**这个值是由环境(老师)决定。
在该学生马尔科夫奖励过程中,授课老师的主要目的是希望学生能够尽早的通过考试,因而给了“考试通过”这个状态以正的较高的奖励(+10),而对于过程中的其它状态多数给的是负奖励。虽然设定状态“泡吧中”的奖励为+1,但由于状态“泡吧中”随后的三个可能状态获得的奖励都低于−1,因而可以认为授课教师并不十分赞在完成“第三节课”后出去泡吧。从学生的角度来说,学生的目标是在学习一门课程的过程中获得尽可能多的累积奖励,对于这个例子来说,也就是尽早的到达“考试通过”这个状态进而进入“睡觉休息”这个终止状态,完成一个完整的状态序列。(学生的目标不重要,只是为了形成完整的状态序列) 在强化学习中,我们给这个累计奖励一个新的名称“收获”。
收获(return) 是一个马尔科夫奖励过程中从某一个状态 S t S_t St 开始采样直到终止状态时所有奖励的有衰减的之和。数学表达式如下: