简述马尔科夫决策过程(上)


在人工智能中,大家可能知道两种技术,第一是机器算法,第二是深度学习。而在深度学习中有强化学习和突破学习这两种技术。这两种技术给深度学习带来了很大的帮助。而强化学习中有一个技术,那就是马尔科夫决策过程,那么什么是马尔科夫决策过程呢?下面我们就给大家介绍一下这个内容。

初听马尔科夫决策过程,相信大家也是一头雾水的,很多人不知道什么是马尔科夫决策过程,其实马尔科夫决策过程就是基于马尔科夫论的随机动态系统的最优决策过程。它是马尔科夫过程与确定性的动态规划相结合的产物,故又称马尔科夫型随机动态规划,属于运筹学中数学规划的一个分支。马尔科夫决策过程具有马尔可夫性,这个马尔科夫性就是无后效性,及系统的下个状态只与当前状态信息有关,与更早的状态无关,但不同的是马尔科夫决策过程考虑了动作,即系统下个状态不仅和当前的状态有关,也和当前采取的动作有关。

那么马尔科夫决策要求是什么呢?马尔科夫决策的要求具体体现在三点,第一点就是能够检测到理想的状态。第二点就是可以进行多次尝试。第三点就是系统的下个状态只与当前状态信息有关,而与更早之前的状态无关。在决策过程中还和当前采取的动作有关。

那么马尔科夫决策过程的定义是什么呢?其实马尔科夫决策过程可以用一个五元组(S, A, P(:?, R(:?, γ)来描述,其中:S是一组有限的状态集(state);A是一组有限的动作集(action); Pa(s,s’)=Pr(St+1=s’|St=s,at=a)表示在时间t状态s采取动作a可以在时间t+1转换到状态s’的概率;Ra(s,s’)表示通过动作a,状态s转换到 s’所带来的及时收益或回报(reword);γ是折扣因子,表示未来收益和当前收益之前的差别,意味着当下的 reward比未来反馈的reward更重要。需要提醒大家的是,马尔可夫决策过程并不要求S或者A是有限的,但基础的算法中假设它们是有限的。、

在这篇文章中我们给大家介绍了马尔科夫决策过程的特点、要求以及定义,这些内容都是能够帮助大家初步了解马尔科夫决策过程的,我们在后面的文章中继续为大家介绍更多有关马尔科夫决策的知识。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值