强化学习路线推荐及资料整理

最新推荐文章于 2025-02-24 22:58:59 发布

HandsomeWu666

最新推荐文章于 2025-02-24 22:58:59 发布

阅读量3.3k

点赞数 10

分类专栏：强化学习文章标签：强化学习深度学习机器学习

本文链接：https://blog.csdn.net/wushuai123_/article/details/112607595

版权

强化学习专栏收录该内容

1 篇文章

订阅专栏

全文结构：

第一部分：基础部分
- 建议1：经典书籍
- 建议2：莫凡课程
- 建议3：李宏毅课程
- 建议4：相应的一些经典论文(上面入门课程提到的论文)
第二部分：进阶部分
- 建议1：进一步构建知识体系
- 建议2：Dirty Hand-多练习
- 建议3：了解前沿的研究方向
- 强化学习应用及前景

强化学习路线推荐及资料整理

整理时间：2021.1.13

强化学习当然是从理论和实践一起入手

这里结合自己的学习经验和前人的总结，推荐一些书、课程、论文。以及食用方法

第一部分：基础部分

建议不分先后，反正都是基础部分，大家怎么舒服怎么来，怎么能看下去怎么来，黑猫白猫抓住耗子就是好猫。

建议1：经典书籍

最开始是建议从基础入手，因为直接上代码，即使是跑起来了，你是真的不知道咋回事，意义也不大

入门书籍：《Reinforcement Learning: An Introduction》sutton,v2.2018

书籍配套代码1：[ShangtongZhang版本]

书籍配套代码2：[dennybritz版本]

配套课程：[ DAVID SILVER]（可能需要科学上网,备注有国内观看方式）

我开始是只想看3~5章，所以就直接看这里了，一开始啃的英文，幸好有小伙伴一起看，效果还OK，后面实在是啃不动了，就买了译本，互相参考着看。

建议：英文为主，中文为辅慢慢啃，学不下去就跑代码玩玩看

待填坑：视频还没有去看

B站搬运课程：[这里]
课程对应代码：[这里]

知乎社区：[@叶强](这里的基础实践内容讲解很棒~)

这里得前一大部分，都是表格解法，和现在得深度强化学习还有一段距离。

当然你如果想快速从入门到放弃(开玩笑哈,狗头./jpg)，应该是快速从代码层面了解下RL

建议2：莫烦课程

课程地址：[这里]

课程目录：基本上覆盖了RL的入门算法

简介
Q-learning
Sarsa
Deep Q Network(DQN)
Policy Gradient(策略梯度)
Actor Critic
Model Based RL

优点：课程简短、简单，讲解清晰，代码可付现度高

缺点：前几节对新手比较好，后面需要学一点基础再来看

莫烦真的好强，呜呜呜，咋啥都会，好烦~~ 啊哈哈

如果你稍微有了些基础，迫切的想上代码练练手，但是又想有本书指导，可以参考这本
《强化学习：原理与Python实现》肖智清 2019.8

**简介：**它自己说的啊，我复制的

全球第一本配套TensorFlow 2 代码的强化学习教程书，
中国第一本配套 TensorFlow 2代码的纸质算法书，
现已提供TensorFlow 2和PyTorch 1对照代码

书籍对应代码仓库：[这里]

建议：这本书虽然薄且易上手，但是这里的公式和名词表达确实对初学者不大友好，故建议有点基础再看。

建议3：李宏毅课程

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nYgXx5FW-1610605625585)(https://imgkr2.cn-bj.ufileos.com/0cd76241-7975-48ec-a9c3-18b1e8425d7c.jpg?UCloudPublicKey=TOKEN_8d8b72be-579a-4e83-bfd0-5f6ce1546f13&Signature=wYfEC3O0MXKhJ0TpReidxxwHHpc%253D&Expires=1610635434)]

李宏毅老师讲课比较有意思的，可惜视频的清晰度，音效质量不高，但是好在内容质量高，深度强化学习课程里，这应该是很好的资源了，把我之前的疑虑讲的很明白。(长得还挺帅…吸溜~)

B站课程地址：[这里]

课程笔记：[这里]

课程目录：我感觉可能是扮搬运的问题，有点混乱

简介(66min)
Policy Gradient(13min) – 感觉放错了位置
Learning to Interact with Enviroments(65min) 广泛的速览了一下RL算法们
Proximal Policy Optimization(PPO)(45min)
On-policy & Off-policy(41min)
Q-learning(49min)
Deep Q-learning 及改进(38+14min)
Actor Critic
Sparse Reward 稀疏奖励(30min)
Imitation Learning 模仿学习(34min)

课程食用方法：建议先把Sutton的前面几章看了，有了MDP、DP、Monte Carlo、TD这些大概的概念，然后再看，感觉会好很多。个人觉得这个适合做复盘学习看。

这里其实还有一些Stanford 、UCB 的课程，但是我没有看，故不好推荐，但是参考链接已经放到文末了，有需自取。

同时个人觉得扔给你一大堆资料，挑起来也是很痛苦的一件事。其实这些资料在知乎一搜就可以找到，自己仅仅做了一个二次整理(当然是在自己有看过的基础上)

当然后面DRL会用到很多机器学习的东西，现在知乎上相关的资料和推荐非常多。就不🐎了(有需要的话，我也可以整理一份)

建议4：相应的一些经典论文(上面入门课程提到的论文)

综述类：简单看看发展状态
- Deep Reinforcement Learning: A State-of-the-Art Walkthrough(2020)
- Multi-Agent Reinforcement Learning: A Selective Overview of Theories and Algorithms(2019)
算法类：经典算法
- [DPG] Deterministic policy gradient algorithms (ICML 2014)
- [DDPG] Continuous control with deep reinforcement learning (ICLR 2016)
- [PPO] Proximal policy optimization algorithms (2017)
- [TRPO] Trust region policy optimization (2017)
- [Rainbow] Rainbow_ combining improvements in deep reinforcement learning (AAAI 2017)
  这篇文章建议看看，它是对前面多种DQN方法的一个总结，能让你比较省时全面的综合下自己前面学的东西

关于rainbow的一些补充

详细概述及资料补充：[Rainbow: 融合DQN六种改进的深度强化学习方法！]
Pytorch手把手实现：Rainbow is all you need!

幸福的孩子有学长给下载论文，我是幸福的孩子(感谢凌霄和蒙轩学长)

这里分享下这份幸福，不想自己去找的同学可以下载
链接：https://pan.baidu.com/s/1fu7huZ-lhX2HDAekuVkK5Q 提取码：ygpl

第二部分：进阶部分

坦白说，我也只是刚刚入门阶段，不敢提进阶该怎样怎样，但是这里搬运一个有多年RL研究工作的大佬的建议吧，@Flood Sung 感兴趣的同学可以看看。

依我看来，我是觉得有这么几部分需要做吧

进一步构建知识体系：RL是机器学习的一个分支，同时也是一个高度交叉的领域，如果是做不同的研究方向，还是有海量的东西需要学习。
Dirty Hand-多练习：学完算法，应用成代码是一件必要的事情。多动手、多踩坑才能快速成长
了解最新的研究动态：深度强化学习近几年的发展也是非常迅速，在不同领域遍地开花，有了基础知识，就可以去啃啃大多数的前沿论文，尝试找找自己感兴趣的方向。

建议1：进一步构建知识体系

这里我大家可以参考上面大佬的博客建议，初学者不敢瞎说。

PS: 如果买正版《强化学习》译本，博文视点还配了一套国内的课程（国内RL大佬的一个10多天的讲座），不适合入门但是作为有基础的同学的知识面铺垫还是不错的。内容大概如下。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QPobTeGm-1610605625586)(https://imgkr2.cn-bj.ufileos.com/f51b7c89-2845-43e6-8738-7ed990d0d4f6.png?UCloudPublicKey=TOKEN_8d8b72be-579a-4e83-bfd0-5f6ce1546f13&Signature=tMUXt10810PjopqFB1J4i1EESQI%253D&Expires=1610675558)]
讲师团队多为国内行业的大牛
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-u6eLbICz-1610605625587)(https://imgkr2.cn-bj.ufileos.com/0eb3c164-ba58-456b-9682-334c5844affd.png?UCloudPublicKey=TOKEN_8d8b72be-579a-4e83-bfd0-5f6ce1546f13&Signature=060vhCpxF3sBxTaoj%252FMqQ9T7OQU%253D&Expires=1610675594)]