强化学习-An introduction之时序差分（TD Learning）个人笔记

最新推荐文章于 2024-08-28 15:22:32 发布

MrTriste

最新推荐文章于 2024-08-28 15:22:32 发布

阅读量1.2k

点赞数

分类专栏：强化学习文章标签：强化学习时序差分 TD Learning Sarsa

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wjc1182511338/article/details/80932609

版权

Chapter 6 Temporal-Difference Learning

MC方法是通过考虑采样轨迹，克服了模型未知给策略估计造成的困难，但是它需要在完成一个采样轨迹后再更新策略的值估计；而之前介绍的基于DP的策略迭代和值迭代算法在每执行一步策略后就进行值函数更新。相比而言，MC方法效率低得多。主要原因是MC方法没有利用学习任务的MDP结构。

TD Learning则结合了DP和MC的思想，能做到更高效的免模型学习。

1 Policy Evaluation

$constant-\alpha$ MC：（ $G_t$ 是t时刻到结束的累计奖励）

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

MrTriste CSDN认证博客专家 CSDN认证企业博客

码龄10年

35: 原创

23万+: 周排名

130万+: 总排名

13万+: 访问

: 等级

1493: 积分

57: 粉丝

104: 获赞

68: 评论

237: 收藏

私信

关注

热门文章

分类专栏

最新评论

LSTM详解反向传播公式推导
不牌不改: 图全挂了。。。
循环神经网络RNN详解反向传播公式推导+代码（十分详细）
IT猿手: RNN详推可以参考https://blog.csdn.net/weixin_46204734/article/details/121531351?spm=1001.2014.3001.5501
TensorFlow实战：LSTM的结构与cell中的参数
糯米团子有点萌: [code=python] if time_step > 0: tf.get_variable_scope().reuse_variables() [/code]请问这句话有什么作用呀？
LSTM详解反向传播公式推导
学机器学习的科比: 而楼下说的为什么不是连乘，如果是连乘的话，则所有权重不共享了，说白了就是类似于BP神经网络之间的权重，BP的反向传播为什么是连乘，因为第一层W1和第二层W2有直接关系，并且不共享，两层的W完全不相同，而LSTM中，每个CELL中的权重和另外一个CELL中的权重没有直接关系，大家的权重都是一样的，并没有像BP神经网络那样，也就是说，LSTM中的某一个CELL中的权重不是由其他CELL中的权重通过操作得来的
LSTM详解反向传播公式推导
学机器学习的科比: 为什么是加等号呢，用一句话解释就是循环神经网络的权重是共享的，也就是一摸一样的，也就是说在反向传播的时候，L(损失函数)对任何一个权重求导的时候(这里假设是对遗忘门的W)对应的是共有时间步这么多的权重的边(比如时间步是10，则L对遗忘门的W求导的时候，会对应着10个边，因为每一个边都是遗忘门的W)，为了避免产生歧义，分别对每个时间步的W求导然后相加，就可以啦

大家在看

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。