马尔可夫链 & 马尔可夫奖励过程:
自己的初步理解就是,在某个环境中主体可能存在n个状态,每个状态都对应这一个奖励,当前状态有一定概率转移到其他状态或者保持原样不动,那么当前状态
t1得到的奖励 = 当前状态的奖励 + γ(折扣率) * (转移到状态n的概率 * 状态n的奖励 )
γ的设定原因之一是为了避免死循环, 可作为参数
所有时间得到的奖励:
总奖励 = ti时间所在状态得到的奖励 * 折扣率**i
价值函数V(s):
V(s) = E(Gt|st = s)
即在所有状态下的总奖励的期望
通过这个公式 有四种计算价值函数的方法
1、蒙特卡罗采样
采用蒙特卡罗采样的办法类似让小船在矩阵里随波逐流
2、贝尔曼等式 BELL EQUATION:(比较重要)
★ V(s) = R(s) + γP(s’|s)V(s’) 可写成矩阵形式
但是用矩阵来求解只适用于数据量小的情况,当状态为n时,会有n**3个情况出现
3、迭代
★ 最重要
4、马尔科夫决策过程(MDP)
下面左边的图片左下角描述了马尔可夫决策过程与马尔可夫奖励过程的不同:
对于奖励过程而言,任何状态转移到其他状态都是直接转移的,只需要知道概率即可,这就是利用小船随波逐流来比喻蒙特卡罗采样的原因,但是马尔科夫决策过程需要在两个状态间添加一个动作,这个动作决