强化学习-An introduction之 时序差分(TD Learning) 个人笔记

Chapter 6 Temporal-Difference Learning

MC方法是通过考虑采样轨迹,克服了模型未知给策略估计造成的困难,但是它需要在完成一个采样轨迹后再更新策略的值估计;而之前介绍的基于DP的策略迭代和值迭代算法在每执行一步策略后就进行值函数更新。相比而言,MC方法效率低得多。主要原因是MC方法没有利用学习任务的MDP结构。

TD Learning则结合了DP和MC的思想,能做到更高效的免模型学习。

1 Policy Evaluation

c o n s t a n t − α constant-\alpha constantα MC:( G t G_t Gt是t时刻到结束的累计奖励)

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值