强化学习学习笔记10.23

最新推荐文章于 2025-04-03 14:16:20 发布

weixin_48580498

最新推荐文章于 2025-04-03 14:16:20 发布

阅读量164

点赞数

分类专栏：机器学习文章标签：人工智能 python 强化学习机器学习

本文链接：https://blog.csdn.net/weixin_48580498/article/details/109247512

版权

马尔可夫链 & 马尔可夫奖励过程：

在这里插入图片描述

自己的初步理解就是，在某个环境中主体可能存在n个状态，每个状态都对应这一个奖励，当前状态有一定概率转移到其他状态或者保持原样不动，那么当前状态
t1得到的奖励 = 当前状态的奖励 + γ(折扣率) * (转移到状态n的概率 * 状态n的奖励 )
γ的设定原因之一是为了避免死循环，可作为参数

所有时间得到的奖励:
总奖励 = ti时间所在状态得到的奖励 * 折扣率**i

价值函数V(s)：
V(s) = E(Gt|st = s)
即在所有状态下的总奖励的期望
通过这个公式有四种计算价值函数的方法
1、蒙特卡罗采样
采用蒙特卡罗采样的办法类似让小船在矩阵里随波逐流
2、贝尔曼等式 BELL EQUATION：(比较重要)
★ V(s) = R(s) + γP(s’|s)V(s’) 可写成矩阵形式
但是用矩阵来求解只适用于数据量小的情况，当状态为n时，会有n**3个情况出现
3、迭代