强化学习的学习之路（零）_2021-00-00：目录

最新推荐文章于 2022-06-26 10:40:09 发布

Chou_pijiang

最新推荐文章于 2022-06-26 10:40:09 发布

阅读量1.5k

点赞数 17

分类专栏：强化学习-基础知识文章标签：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zyh19980527/article/details/112257398

版权

强化学习-基础知识专栏收录该内容

60 篇文章 111 订阅

订阅专栏

作为一个新手，写这个强化学习-基础知识专栏是想和大家分享一下自己学习强化学习的学习历程，希望对大家能有所帮助。这个系列后面会不断更新，希望自己在2021年能保证平均每日一更的更新速度，主要是介绍强化学习的基础知识，后面也会更新强化学习的论文阅读专栏。本来是想每一篇多更新一点内容的，后面发现大家上CSDN主要是来提问的，就把很多拆分开来了（而且这样每天任务量也小一点哈哈哈哈偷懒大法）。但是我还是希望知识点能成系统，所以我在目录里面都好按章节系统地写的，而且在github上写成了书籍的形式，如果大家觉得有帮助，希望从头看的话欢迎关注我的github啊，谢谢大家！另外我还会分享深度学习-基础知识专栏以及深度学习-论文阅读专栏，很早以前就和小伙伴们花了很多精力写的，如果有对深度学习感兴趣的小伙伴也欢迎大家关注啊。大家一起互相学习啊！可能会有很多错漏，希望大家批评指正！不要高估一年的努力，也不要低估十年的积累，与君共勉！

为了便于大家能够更清楚地了解到都有什么内容，在这里放一下目录，并在名称后面加上时间，就算是从2021年1月1日开始吧，看看自己能不能坚持下来起码每日一更：

目录

第一章-强化学习的基本介绍

（一）强化的来源、强化学习的基本概念、强化学习与监督学习、进化学习的区别_2021-01-01

（二）强化学习中的基本概念_2021-01-02

（三）强化学习中的部分可观（POMDP）和全部可观（MDP）_2021-01-03

（四）强化学习中Agent的分类_2021-01-04

（五）强化学习中的Exploration和Exploitation、Planning和Learning、Prediction和Control_2021-01-05

（六）强化学习中的On-policy和Off-policy、On-line和Off-line、Deterministic和Stochastic_2021-01-06

（七）强化学习中的Gym_2021-01-07

（八）强化学习的学习资源及学习建议_2021-01-08

第二章-MDP、K臂老虎机及贝尔曼方程

（九）强化学习中的MDP_2021-01-09

（十） K臂老虎机介绍及其Python实现_2021-01-10

（十一）贝尔曼方程_2021-01-11

第三章- Policy Iteration和Value Iteration

（十二）Policy Evalution_2021-01-12

（十三）Policy Iteration 和Value Iteration及其Python实现_2021-01-13

第四章-动态规划、蒙特卡罗、时间差分

（十四）动态规划（DP）、蒙特卡罗（MC）、时间差分（TD）_2021-01-14

（十五） DP、MC、TD的Python实现

第五章-Sarsa和Q-learning

（十六）Sarsa和Q-learning及其Python实现_2021-01-15

（十七）Value Function Approximation 价值函数近似_2021-01-16

第六章-DQN及其系列改进

（十八）DQN_Nature_2021-01-17

（十九） Multi-step DQN_2021-01-19

（二十）Priority Replay Buffer_2021-01-20

（二十一） Dueling DQN（Dueling networkarchitectures for deep reinforcement learning)_2021-01-21

（二十二）DQN from Demonstrations（DQfD解决DQN冷启动问题）_2021-01-22

（二十三）Distributional DQN：A Distributional Perspective on Reinforcement Learning_2021-01-23

（二十四）Distributional DQN：Distributional RL with Quantile Regression_2021-01-24

（二十五）Distributional DQN：Implicit Quantile Networks for Distributional RL_2021-01-25

（二十六） Noisy DQN_2021-01-26

（二十七）Q-learning with continuous actions_2021-01-27

（二十八）Rainbow_2021-01-28

（二十九）Practical tips for DQN_2021-01-29

第七章-Policy Optimization

（三十）Policy Optimazation 简介_2021-01-30

（三十一） REINFORCE_2021-01-31

（三十二）Differences between RL and Imitation learning（强化学习和模仿学习的差别）_2021-02-01

（三十三）REINFOCR算法的缺陷及应对方法_2021-02-02

（三十四）Off-Policy policy gradient_2021-02-03

（三十五）Tips in Policy Gradient Descent_2021-02-04

第八章-Actor-Critic

（三十六） Actor Critic - Reducing variance with critic_2021-02-05

（三十七） Actor Critic - Evaluation for value function_2021-02-06

（三十八） Actor Critic - Discount factor_2021-02-07

（三十九） Actor Critic -Design Decisions_2021-02-08

（四十） Actor Critic -Critics as baselines_2021-02-09

第九章- 单调提升的策略优化

（四十一） Problems in Policy Gradient_2021-02-10

（四十二） Issues of Importance Sampling_2021-02-11

（四十三）Monotonic Improvement Theory（策略的单调提升）_2021-02-12

（四十四）Monotonic Improvement with KL Divergence_2021-02-13

（四十五）共轭梯度法实现策略上的单调提升(Monotonic Improvement with Dual gradient descent)_2021-02-14

（四十六）自然梯度法实现策略上的单调提升(Monotonic Improvement with Natural gradient descent)_2021-02-15

（四十七）TRPO实现策略上的单调提升(Monotonic Improvement with TRPO )_2021-02-16

（四十八）GAE（Generalized Advantage Estimation）_2021-02-17

（四十九）基于GAE和TRPO的值函数优化_ 2021-02-18

（五十）PPO实现策略上的单调提升(Monotonic Improvement with PPO )_2021-02-19

第十章-Off-policy Policy Gradient

（五十一）Retrace_2021-02-20

（五十二）ACER_2021-02-21

（五十三） DPG_2021-02-22

（五十四) DDPG_2021-02-23

第十一章-模仿学习

（五十五）模仿学习介绍_2021-02-24

（五十六）模仿学习存在的问题_2021-02-25

（五十七）模仿学习的理论分析_2021-02-26

（五十八）其他做模仿学习的方式_2021-02-27

关注

17
点赞
踩
51

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。