强化学习（二）----- 马尔可夫决策过程MDP

最新推荐文章于 2024-02-19 02:42:46 发布

VIP文章 Duckie-duckie

最新推荐文章于 2024-02-19 02:42:46 发布

阅读量895

点赞数 2

分类专栏：机器学习文章标签：数据数据分析数据挖掘机器学习算法

本文链接：https://blog.csdn.net/zb123455445/article/details/78397489

版权

1. 马尔可夫模型的几类子模型

大家应该还记得马尔科夫链(Markov Chain)，了解机器学习的也都知道隐马尔可夫模型(Hidden Markov Model，HMM)。它们具有的一个共同性质就是马尔可夫性(无后效性)，也就是指系统的下个状态只与当前状态信息有关，而与更早之前的状态无关。

马尔可夫决策过程(Markov Decision Process, MDP)也具有马尔可夫性，与上面不同的是MDP考虑了动作，即系统下个状态不仅和当前的状态有关，也和当前采取的动作有关。还是举下棋的例子，当我们在某个局面（状态s）走了一步(动作a)，这时对手的选择（导致下个状态s’）我们是不能确定的，但是他的选择只和s和a有关，而不用考虑更早之前的状态和动作，即s’是根据s和a随机生成的。

我们用一个二维表格表示一下，各种马尔可夫子模型的关系就很清楚了：

	不考虑动作	考虑动作
状态完全可见	马尔科夫链(MC)	马尔可夫决策过程(MDP)
状态不完全可见	隐马尔可夫模型(HMM)	不完全可观察马尔可夫决策过程(POMDP)

2. 马尔可夫决策过程

一个马尔可夫决策过程由一个四元组构成M = (S, A, P_sa,R）

S：表示状态集(states)，有s∈S，s_i表示第i步的状态

A：表示

最低0.47元/天解锁文章

Duckie-duckie

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
强化学习（二）----- 马尔可夫决策过程MDP

1. 马尔可夫模型的几类子模型大家应该还记得马尔科夫链(Markov Chain)，了解机器学习的也都知道隐马尔可夫模型(Hidden Markov Model，HMM)。它们具有的一个共同性质就是马尔可夫性(无后效性)，也就是指系统的下个状态只与当前状态信息有关，而与更早之前的状态无关。马尔可夫决策过程(Markov Decision Process, MDP)也具有马尔可夫性，
复制链接

扫一扫