强化学习

第六章

 

时序差分学习

TD学习是结合蒙特卡洛和动态规划方法;像蒙特卡罗学习方法一样, TD方法可以直接从原始经验中学习,而不需要模型环境的动态模型。像动态规划一样,进行部分更新估计,而不需要全部学习完再进行估计。

6.1  TD预测

 

TD和蒙特卡洛一样用经验解决预测问题。蒙特卡洛公式:


 

Gt是时间t时时间返回值,α是定步长参数。但是必须等到episode结束后才能决定增量V (St)。

TD是只需要下一步的值便可以进行更新,TD(0)公式:


因为TD方法的更新部分基于现有的估计,我们说 这是一个像DP一样的迭代方法,


 

TD(0)更新中的括号中的数量是一种错误,测量St的估计值和更好的估计Rt + 1 +γV(St+ 1)之间的差值。t是V(St)中的错误,可以在时间内得到 t + 1,


TD比DP的优势是不需要环境模型,比MC的优势是只需知道下一状态的值,不需要等待一次episode完成。

Sarsa : 在策略TD控制


Sarsa算法:


Q-learning:离策略TD控制


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值