强化学习篇之马尔科夫决策过程

《强化学习基础1–马尔科夫决策过程》



前言

强化学习是机器学习的领域之一,其重点是给定的主体在一个环境中,为了获得更大的回报,可能采取的行动。而马尔科夫决策过程是强化学习的基础,其为我们提供了一种形式化的方法——顺序决策。


提示:本系列文章为学习强化学习过程中的笔记梳理,欢迎指正!

一、马尔科夫决策过程(MDPs)是什么?

马尔科夫决策过程全称 markov decision processes,简称MDPs,

1.马尔科夫的由来

马尔科夫来自著名的俄罗斯数学家——安德烈·马尔科夫(Andrey Markov)

在这里插入图片描述
“马尔可夫”通常意味着在当前状态下,未来和过去是独立的。马尔可夫性质是所有现代强化学习算法的存在和成功的基础。

2.MDPs基本内容:

Environment :交互的环境
Agent:实体决策者
States:所有的可能的环境状态
Actions:实体可以在环境中执行的所有操作
Rewards:实体与环境交互可以从中获得的所有奖励

3.MDPs:

在MDPs中,一个实体决策者与其放置的环境交互,随着时间的推移,相互作用会依次发生。在每一个时间步,实体将获得环境状态的一些表示,然后实体选择要执行的操作,环境随此转换成某种新状态,实体从中得到相应奖励。

在这里插入图片描述
上图很好的说明了马尔科夫决策过程的思想,从给定状态中选择动作的,过渡到新的状态并获得奖励,一次一次的连续发生,形成一种轨迹。这种顺序决策的过程就是马尔科夫决策过程。以下分步说明:

在这里插入图片描述

第一步:在时间t,环境处于状态st
第二步:实体观察当前状态,并选择行动At
第三步:环境转换到状态st+1,并授予实体奖励Rt+1
第四步:以上过程在下一时间步重新开始。

二、马尔科夫决策过程(MDPs)数学表示

在一个MDP中,有一系列的状态 S,一系列的动作 A,一系列的奖励 R。假设这些集合都是有限的,有有限个元素。在时间 t,实体接收环境状态报告St,St属于状态集合 S。基于该状态,实体选择一个动作At,At属于状态集合 A。基于这个动作得到状态动作对(St,At),然后进入下一时间步 t+1,环境也进入新的状态 St+1,其也属于属于状态集合 S,并收到奖励 Rt+1,Rt+1属于状态集合 R。我们可以把这个获得奖励的过程当做一个奖励函数,即 f(St,At)=Rt+1

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值