强化学习的学习之路(零)_2021-00-00:目录

作为一个新手,写这个强化学习-基础知识专栏是想和大家分享一下自己学习强化学习的学习历程,希望对大家能有所帮助。这个系列后面会不断更新,希望自己在2021年能保证平均每日一更的更新速度,主要是介绍强化学习的基础知识,后面也会更新强化学习的论文阅读专栏。本来是想每一篇多更新一点内容的,后面发现大家上CSDN主要是来提问的,就把很多拆分开来了(而且这样每天任务量也小一点哈哈哈哈偷懒大法)。但是我还是希望知识点能成系统,所以我在目录里面都好按章节系统地写的,而且在github上写成了书籍的形式,如果大家觉得有帮助,希望从头看的话欢迎关注我的github啊,谢谢大家!另外我还会分享深度学习-基础知识专栏以及深度学习-论文阅读专栏,很早以前就和小伙伴们花了很多精力写的,如果有对深度学习感兴趣的小伙伴也欢迎大家关注啊。大家一起互相学习啊!可能会有很多错漏,希望大家批评指正!不要高估一年的努力,也不要低估十年的积累,与君共勉!

为了便于大家能够更清楚地了解到都有什么内容,在这里放一下目录,并在名称后面加上时间,就算是从2021年1月1日开始吧,看看自己能不能坚持下来起码每日一更:

目录

第一章-强化学习的基本介绍
(一)强化的来源、强化学习的基本概念、强化学习与监督学习、进化学习的区别_2021-01-01
(二)强化学习中的基本概念_2021-01-02
(三) 强化学习中的部分可观(POMDP)和全部可观(MDP)_2021-01-03
(四)强化学习中Agent的分类_2021-01-04
(五)强化学习中的Exploration和Exploitation、Planning和Learning、Prediction和Control_2021-01-05
(六)强化学习中的On-policy和Off-policy、On-line和Off-line、Deterministic和Stochastic_2021-01-06
(七) 强化学习中的Gym_2021-01-07
(八)强化学习的学习资源及学习建议_2021-01-08
第二章-MDP、K臂老虎机及贝尔曼方程
(九) 强化学习中的MDP_2021-01-09
(十) K臂老虎机介绍及其Python实现_2021-01-10
(十一)贝尔曼方程_2021-01-11
第三章- Policy Iteration和Value Iteration
(十二)Policy Evalution_2021-01-12
(十三)Policy Iteration 和Value Iteration及其Python实现_2021-01-13
第四章-动态规划、蒙特卡罗、时间差分
(十四)动态规划(DP)、蒙特卡罗(MC)、时间差分(TD)_2021-01-14
(十五) DP、MC、TD的Python实现
第五章-Sarsa和Q-learning
(十六)Sarsa和Q-learning及其Python实现_2021-01-15
(十七)Value Function Approximation 价值函数近似_2021-01-16
第六章-DQN及其系列改进
(十八)DQN_Nature_2021-01-17
(十九) Multi-step DQN_2021-01-19
(二十)Priority Replay Buffer_2021-01-20
(二十一) Dueling DQN(Dueling networkarchitectures for deep reinforcement learning)_2021-01-21
(二十二)DQN from Demonstrations(DQfD解决DQN冷启动问题)_2021-01-22
(二十三)Distributional DQN:A Distributional Perspective on Reinforcement Learning_2021-01-23
(二十四)Distributional DQN:Distributional RL with Quantile Regression_2021-01-24
(二十五)Distributional DQN:Implicit Quantile Networks for Distributional RL_2021-01-25
(二十六) Noisy DQN_2021-01-26
(二十七)Q-learning with continuous actions_2021-01-27
(二十八)Rainbow_2021-01-28
(二十九)Practical tips for DQN_2021-01-29
第七章-Policy Optimization
(三十)Policy Optimazation 简介_2021-01-30
(三十一) REINFORCE_2021-01-31
(三十二)Differences between RL and Imitation learning(强化学习和模仿学习的差别)_2021-02-01
(三十三)REINFOCR算法的缺陷及应对方法_2021-02-02
(三十四)Off-Policy policy gradient_2021-02-03
(三十五)Tips in Policy Gradient Descent_2021-02-04
第八章-Actor-Critic
(三十六) Actor Critic - Reducing variance with critic_2021-02-05
(三十七) Actor Critic - Evaluation for value function_2021-02-06
(三十八) Actor Critic - Discount factor_2021-02-07
(三十九) Actor Critic -Design Decisions_2021-02-08
(四十) Actor Critic -Critics as baselines_2021-02-09
第九章- 单调提升的策略优化
(四十一) Problems in Policy Gradient_2021-02-10
(四十二) Issues of Importance Sampling_2021-02-11
(四十三)Monotonic Improvement Theory(策略的单调提升)_2021-02-12
(四十四)Monotonic Improvement with KL Divergence_2021-02-13
(四十五)共轭梯度法实现策略上的单调提升(Monotonic Improvement with Dual gradient descent)_2021-02-14
(四十六)自然梯度法实现策略上的单调提升(Monotonic Improvement with Natural gradient descent)_2021-02-15
(四十七)TRPO实现策略上的单调提升(Monotonic Improvement with TRPO )_2021-02-16
(四十八)GAE(Generalized Advantage Estimation)_2021-02-17
(四十九)基于GAE和TRPO的值函数优化_ 2021-02-18
(五十)PPO实现策略上的单调提升(Monotonic Improvement with PPO )_2021-02-19
第十章-Off-policy Policy Gradient
(五十一)Retrace_2021-02-20
(五十二)ACER_2021-02-21
(五十三) DPG_2021-02-22
(五十四) DDPG_2021-02-23
第十一章-模仿学习
(五十五)模仿学习介绍_2021-02-24
(五十六) 模仿学习存在的问题_2021-02-25
(五十七)模仿学习的理论分析_2021-02-26
(五十八)其他做模仿学习的方式_2021-02-27
  • 16
    点赞
  • 50
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值