强化学习中的蒙特卡洛（monte-carlo）算法和时序差分算法

最新推荐文章于 2024-06-25 10:27:26 发布

zhaoying9105

最新推荐文章于 2024-06-25 10:27:26 发布

阅读量6k

点赞数 1

分类专栏：机器学习增强学习算法蒙特卡洛时序差分文章标签：算法强化学习蒙特卡洛差分时序

本文链接：https://blog.csdn.net/zhaoying9105/article/details/72961342

版权

【未完成】

蒙特卡洛

蒙特卡洛是一类通用算法，思想是通过随机采样逼近真实，这里只介绍在强化学习中的应用。
最初的想法应该是连续运行多个周期，比如经历了两次(s, a)，并且计算了对应的Gt，那么q(s,a)取之平均就可以了，但实际上，为了优化策略或者值函数，不能这样多次采样后直接计算，而是每次采样（一周期）就迭代计算并更新。

特点

周期性更新：

一整个周期结束了（到达了终点）才回进行一个更新（更新所有经历过的state的value）
所以是无偏估计,所谓无偏估计就是，随机变量的期望就是理想值，有偏估计就是随机变量的期望也不是理想值，不论怎样都有偏差。

First-Visit：

第一个周期经历了 某个状态s，第二个周期也第一次经历了这个状态s，待第二个周期结束之后，计算出了第二个周期s对应的G值

（G = 这一步的reward + 打折系数 ^ 1 * 下一步的reward + 打折系数 ^ 2 * 下下步的reward ... + 打折系数 ^ 从s开始走了多少步 * 最后一步的reward ），

然后更新（把第一个周期s的G和第二个周期的s的G取平均得到状态s的value）。

如果第二个周期在后面又一次经历了这个状态s，不用于计算

即每个周期的s的value的更新都是本次的G和前面所有周期的G值的和取平均

Every-Visit

和Fi

最低0.47元/天解锁文章

zhaoying9105

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
强化学习中的蒙特卡洛（monte-carlo）算法和时序差分算法

【未完成】蒙特卡洛特点周期性更新：一整个周期结束了（到达了终点）才回进行一个更新（更新所有经历过的state的value）所以是无偏估计First-Visit：第一个周期经历了某个状态s，第二个周期也第一次经历了这个状态s，待第二个周期结束之后，计算出了第二个周期s对应的G值（G = 这一步的reward + 打折系数 ^ 1 * 下一步的reward + 打折系数 ^ 2 * 下下步的rew
复制链接

扫一扫

专栏目录