强化学习（五）----- 时间差分学习(Q learning, Sarsa learning)

最新推荐文章于 2024-01-31 17:23:26 发布

Duckie-duckie

最新推荐文章于 2024-01-31 17:23:26 发布

阅读量5.1k

点赞数 1

分类专栏：机器学习文章标签：数据数据分析数据挖掘机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zb123455445/article/details/78397526

版权

本文介绍了结合DP和MC优点的TD学习，包括TD(0)算法及其与MC的比较。Sarsa算法作为on-policy方法，用于策略估计，而Q-learning则是一种off-policy方法，其Q函数更新公式与Sarsa类似但策略选择不同。两者都是强化学习中的重要算法。

摘要由CSDN通过智能技术生成

接下来我们回顾一下动态规划算法(DP)和蒙特卡罗方法(MC)的特点，对于动态规划算法有如下特性：

需要环境模型，即状态转移概率
状态值函数的估计是自举的(bootstrapping)，即当前状态值函数的更新依赖于已知的其他状态值函数。

相对的，蒙特卡罗方法的特点则有：

可以从经验中学习不需要环境模型
状态值函数的估计是相互独立的
只能用于episode tasks

而我们希望的算法是这样的：

不需要环境模型
它不局限于episode task，可以用于连续的任务

本文介绍的时间差分学习(Temporal-Difference learning, TD learning)正是具备了上述特性的算法，它结合了DP和MC，并兼具两种算法的优点。

TD Learing思想

在介绍TD learning之前，我们先引入如下简单的蒙特卡罗算法，我们称为constant- MC，它的状态值函数更新公式如下：

其中

是每个episode结束后获得的实际累积回报，

是学习率，这个式子的直观的理解就是用实际累积回报

作为状态值函数

的估计值。具体做法是对每个episode，考察实验中

的实际累积回报

和当前估计

的偏差值，并用该偏差值乘以学习率来更新得到

的新估值。

现在我们将公式修改如下，把换成，就得到了TD(0)的状态值函数更新公式：

最低0.47元/天解锁文章

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。