强化学习学习笔记10.23

马尔可夫链 & 马尔可夫奖励过程:

在这里插入图片描述

自己的初步理解就是,在某个环境中主体可能存在n个状态,每个状态都对应这一个奖励,当前状态有一定概率转移到其他状态或者保持原样不动,那么当前状态
t1得到的奖励 = 当前状态的奖励 + γ(折扣率) * (转移到状态n的概率 * 状态n的奖励 )
γ的设定原因之一是为了避免死循环, 可作为参数

所有时间得到的奖励:
总奖励 = ti时间所在状态得到的奖励 * 折扣率**i

价值函数V(s):
V(s) = E(Gt|st = s)
即在所有状态下的总奖励的期望
通过这个公式 有四种计算价值函数的方法
1、蒙特卡罗采样
采用蒙特卡罗采样的办法类似让小船在矩阵里随波逐流
2、贝尔曼等式 BELL EQUATION:(比较重要)
★ V(s) = R(s) + γP(s’|s)V(s’) 可写成矩阵形式
但是用矩阵来求解只适用于数据量小的情况,当状态为n时,会有n**3个情况出现
3、迭代

★ 最重要

4、马尔科夫决策过程(MDP)

下面左边的图片左下角描述了马尔可夫决策过程与马尔可夫奖励过程的不同:
对于奖励过程而言,任何状态转移到其他状态都是直接转移的,只需要知道概率即可,这就是利用小船随波逐流来比喻蒙特卡罗采样的原因,但是马尔科夫决策过程需要在两个状态间添加一个动作,这个动作决定了能否转移到某个其他状态及其概率,也就是说,在不同状态下转移到其他状态不仅需要以来奖励过程的概率,还需要依赖当前时点的决策。
最终仍然可以得到任意时点的价值函数,并且在所有行为(也就是途中黑色节点)的行为所对应的价值已知情况下,马尔科夫决策与马尔科夫奖励过程完全相同。
但是大多数情况下是不知道的,所以此时要引入新的函数:

在这里插入图片描述

由上述式子可以推导出q与V的关系式如下右图公式(9)所示

最后通过马尔科夫决策过程来计算某个策略的价值
比如此时折扣γ = 0.5 且这个人有0.5的概率向左或者向右,那么如何计算当前状态的价值?
参考下图Iteration,仍然使用贝尔曼等式

当前价值 = 当前奖励 + 折扣 * s状态的决策所导致的状态的概率 * 所导致状态带来的价值
最终函数收敛

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值