知识表示-马尔科夫链(MC)

马尔科夫链MC是一种满足马尔可夫性的离散随机变量集合。
所谓马尔可夫性是指给定一个随机变量的邻居信息,该随机变量的独立于其他所有的非邻居变量,即当前随机序列的下一个状态,仅仅与当前的状态有关,而与之前的状态没有关系。(有点类似于DP思想)。

当随机变量集合{ X 1 , X 2 , . . . X N {X_1, X_2,...X_N} X1,X2,...XN}满足马尔可夫性时,以下公式成立:
P ( X t + 1 ∣ X t , . . . X 1 ) = P ( X t + 1 ∣ X t ) P(X_{t+1}|X_t,...X_1)=P(X_{t+1}|X_t) P(Xt+1Xt,...X1)=P(Xt+1Xt)

马尔科夫链通常可以表示为边上带概率的有向图,节点是结合S,每个有向边 s i − > s j s_i->s_j si>sj代表从状态 s t s_t st转移到 s j s_j sj的概率,又称为概率转移。这里没有什么好说的,就是当前状态仅取决于上一个状态。

马尔科夫链的扩展是马尔科夫决策(Markov Decision Process,MDP)。MDP是在MC的基础上增加了动作集合和奖励函数,让决策过程不仅取决于上一个状态 s t s_t st,还取决于在 t t t时刻采取的动作 a t a_t at,以及在 t t t时候得到的回报 r ( s t , a t ) r(s_t,a_t) r(st,at)。此时就非常类似于在图的最短路径求解时,获取最短路径上能够带来的最大回报。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值