强化学习(一)---马尔科夫决策过程

  一、马尔科夫过程   

  在一个时序过程中,如果 t + 1 时刻的状态仅取决于 t 时刻的状态 S t 而与 t 时刻之前的任 何状态都无关时,则认为 t 时刻的状态 S t 具有 马尔科夫性 。若过程中的每一 个状态都具有马尔科夫性则这个过程具备马尔科夫性。具备了马尔科夫性的随机过程称为马尔 科夫过程。通常使用元组<S,P>来描述马尔科夫过程。S为状态集,P为状态专业概率矩阵,其中元素的值为当前状态到下续任意可能状态的概率。
状态转移序列叫状态序列也叫采样。状态序列的最后一个状态为终止态时为完整的状态序列。

二、马尔科夫奖励过程

   在马尔科夫过程的每个状态旁增加一个奖励值。整个过程是由<S,P,R,\gamma>构成的元组,R为奖励函数,可以计算出奖励值,\gamma为衰减因子,取值范围为[0,1]。

  • 某一时刻的收获为从该时刻状态起,状态序列的累计奖励,不同时刻的状态对应不同的收获。

      

      在公式使用时根据其他情况选择具体的衰减因子。

  • 价值是马尔科夫奖励过程中状态的期望。一个状态的价值为从该状态开始的所有可能的状态序列收获的平均值(或者说是下一个状态的价值与其对应概率的乘积)。状态序列越多,该平均值越接近该状态的价值。
  • 以状态为自变量可以得到该状态对应价值的函数为价值函数。  Rt+1为t+1时刻状态的奖励值,后面为t+1时刻价值的衰减值。
  • 贝尔曼方程(价值函数的进一步表达)

 

     

   

    方程含义:一个状态的价值由该状态的奖励以及后续状态价值按概率分布求和按一定的衰减比例联合组成

 三、马尔科夫决策过程

   为了得到高价值,需要在某个状态下判断接下来的哪个行为更有价值,从而达到目的。马尔科夫决策过程即决策行为的过程。过程表示为 <S,A,P,R,\gamma>相比与马尔科夫奖励过程增加了有限行为集A。

  • 决策 过程与奖励过程不同的是:
  1. 奖励是伴随行为的而不是伴随状态的。
  2. 增加了策略的描述
  • 策略(\pi是个体在给定状态下选择一个行为的依据。也可以表示为一个基于行为的概率分布。策略与个体和当前状态有关,不同个体不同策略,统一个体不同状态不同行为。策略是描述个体行为产生的机制,不随状态变化为变化                             
  • 马尔科夫决策过程中的一个策略对应了一个马尔科夫过程和一个马尔科夫奖励过程(不太理解,P12)满足如下两个方程:                             
  • 价值函数
  1. 价值函数 v π ( s ) 是在马尔科夫决策过程下基于策略 π 的状态价值函数,表示从状态 s
    开始,遵循当前策略 π 时所获得的收获的期望:           
  2.  基于策略π 的行为价值函数:表示在遵循策略 π 时,对当前状态 s 执行某一具体行为 a 所能的到的收获的期望: (多数情况使用行为价值(函数)来表示状态行为对价值(函数))         

  •  贝尔曼期望方程  :状态的价值函数,行为的价值函数 以及两个函数之间的关系函数。                                                                                                       一个状态的价值可以用该状态下所有行为价值来表达:                                                                                                                    相比与马尔科夫奖励过程的价值函数,不再是下一个状态的状态转移概率与状态价值的内积,而是策略在当前状态下的行为概率与行为价值函数的内积。注意)                                                                                         进一步展开行为价值函数                                                                     

  • 寻找最优策略(通过比较两个不同策略的优劣来确定一个比较好的策略)

  1. 最优状态价值函数:所有策略下产生的众多状态价值函数中的最大者。
  2. 最优行为状态函数:所有策略下产生的众多行为价值函数中的最大者。
  3. 策略 π 优于 π ( π π ) ,如果对于有限状态集里的任意一个状态 s ,不等式: vπ(s) vπ(s)成立。
  4. 寻求最优策略问题可转化为求解最优行为价值函数问题。最优行为价值函数已知时,决策选择其中的最大值对应的行为,这个过程为 最优决策。          

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值