强化学习

最新推荐文章于 2023-06-23 19:53:33 发布

海边凝望

最新推荐文章于 2023-06-23 19:53:33 发布

阅读量437

点赞数

分类专栏：强化学习文章标签：强化学习 TD

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xingyuexi87/article/details/76481891

版权

强化学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

第六章

时序差分学习

TD学习是结合蒙特卡洛和动态规划方法；像蒙特卡罗学习方法一样, TD方法可以直接从原始经验中学习，而不需要模型环境的动态模型。像动态规划一样，进行部分更新估计，而不需要全部学习完再进行估计。

6.1 TD预测

TD和蒙特卡洛一样用经验解决预测问题。蒙特卡洛公式：

Gt是时间t时时间返回值，α是定步长参数。但是必须等到episode结束后才能决定增量V (St)。

TD是只需要下一步的值便可以进行更新，TD（0）公式：

因为TD方法的更新部分基于现有的估计，我们说这是一个像DP一样的迭代方法，

TD(0)更新中的括号中的数量是一种错误，测量St的估计值和更好的估计Rt + 1 +γV(St+ 1)之间的差值。t是V(St)中的错误，可以在时间内得到 t + 1，

TD比DP的优势是不需要环境模型，比MC的优势是只需知道下一状态的值，不需要等待一次episode完成。

Sarsa ：在策略TD控制

Sarsa算法：

Q-learning：离策略TD控制

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习

第六章时序差分学习TD学习是结合蒙特卡洛和动态规划方法；像蒙特卡罗学习方法一样, TD方法可以直接从原始经验中学习，而不需要模型环境的动态模型。像动态规划一样，进行部分更新估计，而不需要全部学习完再进行估计。6.1 TD预测 TD和蒙特卡洛一样用经验解决预测问题。蒙特卡洛公式： Gt是时间t时时间返回值，α是定步长参数。但是必须等到episode结束后才
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。