深入浅出强化学习——原理入门
第二章:马尔科夫决策过程
https://www.bilibili.com/video/BV1RA411q7wt?from=search&seid=16491158693540192490
第三章:基于模型的动态规划
https://blog.csdn.net/sinat_33761963/article/details/86600216
https://www.cnblogs.com/feifanrensheng/p/13433258.html
第四章: 基于蒙特卡洛的强化学习方法
重要性采样:https://zhuanlan.zhihu.com/p/41217212
https://cloud.tencent.com/developer/article/1143077
https://www.cnblogs.com/xiachongkun/p/7767976.html