强化学习学习笔记10.23

马尔可夫链 & 马尔可夫奖励过程:

在这里插入图片描述

自己的初步理解就是,在某个环境中主体可能存在n个状态,每个状态都对应这一个奖励,当前状态有一定概率转移到其他状态或者保持原样不动,那么当前状态
t1得到的奖励 = 当前状态的奖励 + γ(折扣率) * (转移到状态n的概率 * 状态n的奖励 )
γ的设定原因之一是为了避免死循环, 可作为参数

所有时间得到的奖励:
总奖励 = ti时间所在状态得到的奖励 * 折扣率**i

价值函数V(s):
V(s) = E(Gt|st = s)
即在所有状态下的总奖励的期望
通过这个公式 有四种计算价值函数的方法
1、蒙特卡罗采样
采用蒙特卡罗采样的办法类似让小船在矩阵里随波逐流
2、贝尔曼等式 BELL EQUATION:(比较重要)
★ V(s) = R(s) + γP(s’|s)V(s’) 可写成矩阵形式
但是用矩阵来求解只适用于数据量小的情况,当状态为n时,会有n**3个情况出现
3、迭代

★ 最重要

4、马尔科夫决策过程(MDP)

下面左边的图片左下角描述了马尔可夫决策过程与马尔可夫奖励过程的不同:
对于奖励过程而言,任何状态转移到其他状态都是直接转移的,只需要知道概率即可,这就是利用小船随波逐流来比喻蒙特卡罗采样的原因,但是马尔科夫决策过程需要在两个状态间添加一个动作,这个动作决

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值