马尔科夫决策过程是什么?

13825820-7d1b2cbf068b5e82.jpg

在人工智能中有很多技术,比如强化学习、决策树、马尔科夫决策等。这些技术都能够解决人工智能中的很多问题,可见想学好人工智能,这些技术是我们一定要去好好学习的。说到这些技术我们就不得不提一提马尔科夫决策过程。在这篇文章中我们就给大家详细介绍一下马尔科夫决策过程的知识。

1.马尔科夫决策过程的定义

简单说马尔科夫决策过程就是一个智能体采取行动从而改变自己的状态获得奖励与环境发生交互的循环过程。而马尔科夫决策过程的策略完全取决于当前状态,这也是它马尔可夫性质的体现。

2.实例描述马尔科夫决策

倘若我们在一个交叉路口,这是我们的状态,我们可以选择走A路或者走B路,这是我们的动作集合,P用来表示走某条路的概率,如果走A路,假设我们能捡到钱,这就是我们的奖励。π是我们的决策:在目前的状态下我们选择百分之七十的概率走A,百分之三十的概率走B,这就是我们的一种决策。

3.强化学习和马尔科夫决策

通过动态规划的方法来求解马尔科夫过程,这种情况叫做模型相关的强化学习,意思是我们知道整个马尔科夫决策过程。大致意思是说我们知道奖励函数R(s,a)和转移概率P(s,a,s')的全貌。说到这些就不得不说说模型无关,模型无关指的是我们不了解奖励函数R(s,a)和转移概率P(s,a,s')的全貌。这就需要我们首先需要明确模型无关的策略评价:即在模型无关的情况下,你的策略对于每种状态的价值是多少。并且其次明确如何在模型无关的情况下进行策略学习。即在两眼一抹黑的情况下如何去根据目前的一些情况去改善自己的策略,从而得到更多的奖励。最后是一些优化,需要用到一定的近似算法,去估计去估测结果。而训练则是最后通过一些神经网络的方法进行训练以及反向传播。

在这篇文章中我们给大家介绍了有关马尔科夫决策过程的相关知识,具体分为马尔科夫决策的定义、如何理解马尔科夫决策以及强化学习和马尔科夫决策的联系。通过上述提到的知识相信大家能够更好地去理解马尔科夫决策,希望这篇文章能够帮助大家。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值