强化学习系列(二):Multi-armed Bandits(多臂老虎机问题)
强化学习系列(六):时间差分算法(Temporal-Difference Learning)
强化学习系列(七):n-step Bootstrapping (步步为营)
强化学习系列(八):Planning and learning with Tabular Methods(规划和离散学习方学习方法)
强化学习系列(九):On-policy Prediction with Approximation
强化学习系列(十):On-policy Control with Approximation
强化学习系列(十一):Off-policy Methods with Approximation
强化学习系列(十三):Policy Gradient Methods
参考文献:
1. LagrangeSK的博客_CSDN博客-强化学习,工具,MATLAB领域博主 https://blog.csdn.net/LagrangeSK
2. Teaching - David Silver https://www.davidsilver.uk/teaching/