![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
时序差分
zhaoying9105
这个作者很懒,什么都没留下…
展开
-
强化学习中的蒙特卡洛(monte-carlo)算法和时序差分算法
【未完成】蒙特卡洛特点周期性更新:一整个周期结束了(到达了终点)才回进行一个更新(更新所有经历过的state的value) 所以是无偏估计 First-Visit:第一个周期经历了 某个状态s,第二个周期也第一次经历了这个状态s,待第二个周期结束之后,计算出了第二个周期s对应的G值(G = 这一步的reward + 打折系数 ^ 1 * 下一步的reward + 打折系数 ^ 2 * 下下步的rew原创 2017-06-12 09:52:55 · 6050 阅读 · 0 评论 -
深度学习中的sarsa(lambda)和 Q(lambda)算法
这个没什么好说的,因为在莫烦python中出现了,可能会引起一些疑惑,普通的sarsa 和q-learning就是普通的时序差分(TD)的实现,sarsa(lambda) 和 Q(lambda)算法 就是TD(lambda)的实现。原创 2017-06-20 14:13:09 · 2710 阅读 · 0 评论 -
深度学习中sarsa算法和Q-learning算法的区别
sarsa 和 Q-learning都是时序差分下对动作价值函数优化的单步方法,算法基本上一样,只有一点: 为了更新St的动作价值函数,需要St+1的动作价值函数,St+1具体是什么St+1是由上个episode决定了,但是St+1对应的action由什么决定呢?sarsa的处理方式是episinon + greedy,和St选择aciton采取的方法是一样的,称为 on-policy; Q-l原创 2017-06-12 10:07:01 · 9132 阅读 · 1 评论