马尔科夫链MC是一种满足马尔可夫性的离散随机变量集合。
所谓马尔可夫性是指给定一个随机变量的邻居信息,该随机变量的独立于其他所有的非邻居变量,即当前随机序列的下一个状态,仅仅与当前的状态有关,而与之前的状态没有关系。(有点类似于DP思想)。
当随机变量集合{
X
1
,
X
2
,
.
.
.
X
N
{X_1, X_2,...X_N}
X1,X2,...XN}满足马尔可夫性时,以下公式成立:
P
(
X
t
+
1
∣
X
t
,
.
.
.
X
1
)
=
P
(
X
t
+
1
∣
X
t
)
P(X_{t+1}|X_t,...X_1)=P(X_{t+1}|X_t)
P(Xt+1∣Xt,...X1)=P(Xt+1∣Xt)
马尔科夫链通常可以表示为边上带概率的有向图,节点是结合S,每个有向边 s i − > s j s_i->s_j si−>sj代表从状态 s t s_t st转移到 s j s_j sj的概率,又称为概率转移。这里没有什么好说的,就是当前状态仅取决于上一个状态。
马尔科夫链的扩展是马尔科夫决策(Markov Decision Process,MDP)。MDP是在MC的基础上增加了动作集合和奖励函数,让决策过程不仅取决于上一个状态 s t s_t st,还取决于在 t t t时刻采取的动作 a t a_t at,以及在 t t t时候得到的回报 r ( s t , a t ) r(s_t,a_t) r(st,at)。此时就非常类似于在图的最短路径求解时,获取最短路径上能够带来的最大回报。