强化学习(八)价值函数的近似表示与Deep Q-Learning
强化学习(九)Deep Q-Learning进阶之Nature DQN
强化学习(十一) Prioritized Replay DQN
强化学习(十三) 策略梯度(Policy Gradient)
强化学习(十八) 基于模拟的搜索与蒙特卡罗树搜索(MCTS)
参考文献:
1. 刘建平Pinard - 博客园 https://www.cnblogs.com/pinard/
2. ljpzzz (刘建平(Pinard Liu)) https://github.com/ljpzzz/machinelearning