《强化学习Sutton》读书笔记（五）——时序差分学习（Temporal-Difference Learning）

最新推荐文章于 2024-07-01 17:10:29 发布

yucong96

最新推荐文章于 2024-07-01 17:10:29 发布

阅读量2.1k

点赞数 1

分类专栏：读书笔记强化学习文章标签：强化学习

本文链接：https://blog.csdn.net/yucong96/article/details/82431670

版权

本文深入探讨了强化学习中的时序差分学习（Temporal-Difference Learning, TD），介绍了TD估计的优势，包括其结合MC和DP的特点，以及在On-Policy和Off-Policy决策中的应用，如Sarsa和Q-Learning。此外，文章讨论了最大化的误差问题和Double Learning解决策略，以及在特殊情况下如博弈中的应用。" 118657722,11169113,SARIMAX模型在二氧化碳排放量预测中的应用与检验,"['Python', '数据分析', '机器学习', '统计模型', '时间序列预测']

摘要由CSDN通过智能技术生成

此为《强化学习》第六章 Temporal-Difference Learning 。

时序差分学习 (Temporal-Difference Learning, TD) 是强化学习的核心。TD学习是蒙特卡洛MC法和动态规划DP法的综合，它可以像MC那样，不需要知道环境的全部信息，通过交互就能学习；同时，它也可以像DP那样，在（其他值函数）估计的基础上进行估计，从而不需要求解完整个事件(Episode)。

时序差分估计

在上一章的MC增量式实现一节，我们看到状态值函数的增量式更新表达式：

v n + 1 (s) = v n (s) + W n + 1 C n + 1 (G n + 1 - v n (s))

$v_{n+1}(s) = v_n(s) + \frac{ W_{n+1} }{ C_{n+1} } ( G_{n+1} - v_n(s) )$

其中， $G_{n+1}-v_n{s}$ 的部分为预测值和实际交互得到真实值之间的误差，而 $W_{n+1}/C_{n+1}$ 则为误差的权重项。在Off-Policy的重要性采样中，权重项比较复杂；在On-Policy中，权重项只是 $1/n$ 。本节中做的一个改进是，把权重项替换为一个常数 $\alpha$ 。从而状态值函数的更新式变成了：

v (S t) \leftarrow v (S t) + α (G t - v (S t))

$v(S_t) \leftarrow v(S_t) + \alpha ( G_t - v(S_t) )$

（注意这里下标的变化，其实就是一回事。前面强调当个状态的更新，这里强调所有状态的更新）。上式的更新方法被称为常数 $\alpha$ 蒙特卡洛法 (Constant- $\alpha$ MC) 。但是，这种方法仍然需要求解 $G_t$ ，因此需要等整个episode完成后才能完成每个状态的更新。因此我们提出时序差分的方法，用 $R_{t+1} + \gamma G_{t+1} \approx R_{t+1} + \gamma v(S_{t+1})$ 来替代 $G_t$ ，即