强化学习路线推荐及资料整理

全文结构:

  • 第一部分:基础部分
    • 建议1:经典书籍
    • 建议2:莫凡课程
    • 建议3:李宏毅课程
    • 建议4:相应的一些经典论文(上面入门课程提到的论文)
  • 第二部分:进阶部分
    • 建议1:进一步构建知识体系
    • 建议2:Dirty Hand-多练习
    • 建议3:了解前沿的研究方向
    • 强化学习应用及前景

强化学习路线推荐及资料整理

整理时间:2021.1.13

强化学习当然是从理论和实践一起入手

这里结合自己的学习经验和前人的总结,推荐一些书、课程、论文。以及食用方法

第一部分:基础部分

建议不分先后,反正都是基础部分,大家怎么舒服怎么来,怎么能看下去怎么来,黑猫白猫抓住耗子就是好猫。

建议1:经典书籍

最开始是建议从基础入手,因为直接上代码,即使是跑起来了,你是真的不知道咋回事,意义也不大

image-20210113164644743

入门书籍:《Reinforcement Learning: An Introduction》sutton,v2.2018

书籍配套代码1:[ShangtongZhang版本]

书籍配套代码2:[dennybritz版本]

配套课程:[ DAVID SILVER](可能需要科学上网,备注有国内观看方式)

我开始是只想看3~5章,所以就直接看这里了,一开始啃的英文,幸好有小伙伴一起看,效果还OK,后面实在是啃不动了,就买了译本,互相参考着看。

建议:英文为主,中文为辅慢慢啃,学不下去就跑代码玩玩看

待填坑:视频还没有去看

B站搬运课程:[这里]
课程对应代码:[这里]

知乎社区:[@叶强](这里的基础实践内容讲解很棒~)

这里得前一大部分,都是表格解法,和现在得深度强化学习还有一段距离。

当然你如果想快速从入门到放弃(开玩笑哈,狗头./jpg),应该是快速从代码层面了解下RL

建议2:莫烦课程
image-20210113151241517

课程地址:[这里]

课程目录:基本上覆盖了RL的入门算法

  • 简介
  • Q-learning
  • Sarsa
  • Deep Q Network(DQN)
  • Policy Gradient(策略梯度)
  • Actor Critic
  • Model Based RL

优点:课程简短、简单,讲解清晰,代码可付现度高

缺点:前几节对新手比较好,后面需要学一点基础再来看

莫烦真的好强,呜呜呜,咋啥都会,好烦~~ 啊哈哈

如果你稍微有了些基础,迫切的想上代码练练手,但是又想有本书指导,可以参考这本
《强化学习:原理与Python实现》肖智清 2019.8

**简介:**它自己说的啊,我复制的

  • 全球第一本配套TensorFlow 2 代码的强化学习教程书,
  • 中国第一本配套 TensorFlow 2代码的纸质算法书,
  • 现已提供TensorFlow 2PyTorch 1对照代码

书籍对应代码仓库:[这里]

建议:这本书虽然薄且易上手,但是这里的公式和名词表达确实对初学者不大友好,故建议有点基础再看。

建议3:李宏毅课程

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nYgXx5FW-1610605625585)(https://imgkr2.cn-bj.ufileos.com/0cd76241-7975-48ec-a9c3-18b1e8425d7c.jpg?UCloudPublicKey=TOKEN_8d8b72be-579a-4e83-bfd0-5f6ce1546f13&Signature=wYfEC3O0MXKhJ0TpReidxxwHHpc%253D&Expires=1610635434)]

李宏毅老师讲课比较有意思的,可惜视频的清晰度,音效质量不高,但是好在内容质量高,深度强化学习课程里,这应该是很好的资源了,把我之前的疑虑讲的很明白。(长得还挺帅…吸溜~)

B站课程地址:[这里]

课程笔记:[这里]

课程目录:我感觉可能是扮搬运的问题,有点混乱

  • 简介(66min)
  • Policy Gradient(13min) – 感觉放错了位置
  • Learning to Interact with Enviroments(65min) 广泛的速览了一下RL算法们
  • Proximal Policy Optimization(PPO)(45min)
  • On-policy & Off-policy(41min)
  • Q-learning(49min)
  • Deep Q-learning 及改进(38+14min)
  • Actor Critic
  • Sparse Reward 稀疏奖励(30min)
  • Imitation Learning 模仿学习(34min)

课程食用方法:建议先把Sutton的前面几章看了,有了MDP、DP、Monte Carlo、TD这些大概的概念,然后再看,感觉会好很多。个人觉得这个适合做复盘学习看。

这里其实还有一些Stanford 、UCB 的课程,但是我没有看,故不好推荐,但是参考链接已经放到文末了,有需自取。

同时个人觉得扔给你一大堆资料,挑起来也是很痛苦的一件事。其实这些资料在知乎一搜就可以找到,自己仅仅做了一个二次整理(当然是在自己有看过的基础上)

当然后面DRL会用到很多机器学习的东西,现在知乎上相关的资料和推荐非常多。就不🐎了(有需要的话,我也可以整理一份)

建议4:相应的一些经典论文(上面入门课程提到的论文)
  1. 综述类:简单看看发展状态

    • Deep Reinforcement Learning: A State-of-the-Art Walkthrough(2020)
    • Multi-Agent Reinforcement Learning: A Selective Overview of Theories and Algorithms(2019)
  2. 算法类:经典算法

    • [DPG] Deterministic policy gradient algorithms (ICML 2014)

    • [DDPG] Continuous control with deep reinforcement learning (ICLR 2016)

    • [PPO] Proximal policy optimization algorithms (2017)

    • [TRPO] Trust region policy optimization (2017)

    • [Rainbow] Rainbow_ combining improvements in deep reinforcement learning (AAAI 2017)
      这篇文章建议看看,它是对前面多种DQN方法的一个总结,能让你比较省时全面的综合下自己前面学的东西

关于rainbow的一些补充

幸福的孩子有学长给下载论文,我是幸福的孩子(感谢凌霄和蒙轩学长)

这里分享下这份幸福,不想自己去找的同学可以下载
链接:https://pan.baidu.com/s/1fu7huZ-lhX2HDAekuVkK5Q 提取码:ygpl


第二部分:进阶部分

坦白说,我也只是刚刚入门阶段,不敢提进阶该怎样怎样,但是这里搬运一个有多年RL研究工作的大佬的建议吧,@Flood Sung 感兴趣的同学可以看看。

依我看来,我是觉得有这么几部分需要做吧

  • 进一步构建知识体系:RL是机器学习的一个分支,同时也是一个高度交叉的领域,如果是做不同的研究方向,还是有海量的东西需要学习。
  • Dirty Hand-多练习:学完算法,应用成代码是一件必要的事情。多动手、多踩坑才能快速成长
  • 了解最新的研究动态:深度强化学习近几年的发展也是非常迅速,在不同领域遍地开花,有了基础知识,就可以去啃啃大多数的前沿论文,尝试找找自己感兴趣的方向。
建议1:进一步构建知识体系

这里我大家可以参考上面大佬的博客建议,初学者不敢瞎说。

PS: 如果买正版《强化学习》译本,博文视点还配了一套国内的课程(国内RL大佬的一个10多天的讲座),不适合入门但是作为有基础的同学的知识面铺垫还是不错的。内容大概如下。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QPobTeGm-1610605625586)(https://imgkr2.cn-bj.ufileos.com/f51b7c89-2845-43e6-8738-7ed990d0d4f6.png?UCloudPublicKey=TOKEN_8d8b72be-579a-4e83-bfd0-5f6ce1546f13&Signature=tMUXt10810PjopqFB1J4i1EESQI%253D&Expires=1610675558)]
讲师团队多为国内行业的大牛
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-u6eLbICz-1610605625587)(https://imgkr2.cn-bj.ufileos.com/0eb3c164-ba58-456b-9682-334c5844affd.png?UCloudPublicKey=TOKEN_8d8b72be-579a-4e83-bfd0-5f6ce1546f13&Signature=060vhCpxF3sBxTaoj%252FMqQ9T7OQU%253D&Expires=1610675594)]

建议2:Dirty Hand-多练习

上面的学习资料已经非常多了,得益于现在的互联网环境,资源真的是很容易获得,且数量、质量可观,所以,能否静下心来慢慢去消化这些东西,才是学习路上的拦路虎。

这里再推荐一个OpenAI开源学习资源:Spinning Up (英文阅读能力强的同学可以用来做入门资料)

大概看了看,真的很惊喜,好全面,英文不熟的同学可以网页打开,直接翻译速览。

建议3:了解前沿的研究方向

例如我抄来的一些近年发展的方向

  • Large Scale Deep Reinforcement Learning

  • Multi-Agent Deep Reinforcement Learning

  • Offline Deep Reinforcement Learning

  • Diversity,Curiosity,self-supervised DRL

  • Meta Reinforcement Learning

还有一些大佬会整理某一个方向的最新论文,我下一步想了解多智能体部分,故找到一个定期维护的网站,其他方向肯定也有人会做,大家可以找找(如果没有,这是好事,恭喜你可能将要拥有一个高Start的项目)

  1. 多智能体方向:

Paper Collection of Multi-Agent Reinforcement Learning (MARL)


强化学习应用及前景

最后还是想聊聊大家关心的强化学习实用情况,因为事关前途和饭碗

其实最直接的就是看什么地方能做强化学习的落地。现在很多公司都在做相应的尝试。公司招聘的岗位最能体现它的应用点。下面大家可以参考下字节跳动@Flood Sung的招聘信息。字节强化学习实习招聘通道

大概梳理下有如下几个方向:

  1. 游戏 orAGI(通用人工智能)
  2. 推荐,广告,用户增长 or和人直接交互的agent
  3. 机器人抓取及导航相关的DRL 研究
  4. 底层系统架构,大规模的深度强化学习系统

现在还有很多公司在做这件事情。

比如游戏这块:

启元世界、深极智能、腾讯游戏,腾讯的AI lab、网易游戏,广州的互娱和杭州的伏羲实验室

推荐系统: 阿里、美团、爱奇艺、OPPO、敦煌网

自动驾驶: Momenta、格林深瞳、中智行、三星电子研究院、华在南京的图灵研究院

订单分配、图像生成等领域也有公司布局落地

引自@中原一点红

其实强化学习未来怎样,谁都不好说,所以更多的还是需要一点喜欢和信仰吧,机器人一直都被称为屠龙术,但是近年无人机、无人车、AGV智能工厂都看到了机器人成功落地的影子。可以看到,无论看似多惨淡前景的行业,总会有人默默前行,暗暗积累,耐心等待属于它的时代来临。何况当下这个行业并不惨淡。

从我的角度来看,学习最新知识,掌握基础计算机知识,一时半会总归不会被Out,怕的是自己什么都一知半解,一瓶水不满、半瓶水晃荡(说的好像就是我呢…好难过)

太难了

OK~ 就这样~ 晚安~

啊对了

如果觉得自己学成了?可以来份强化学习面试测一波 哈哈~
《深度强化学习》面试题汇总

参考资料:

【知乎:@董家欢】 David Silver强化学习课程相关资料汇总

【知乎:@盛夏的果核】 强化学习的学习路线?

【Github:@wwxFromTju强化学习从入门到放弃的资料

其他的引用都在文中提及,小白一直,水平有限,若有纰漏请私聊我更改~ 若有侵权,请联系我删除哈~
给自己的公众号打个广告~
感兴趣的同学希望能一起学习讨论

在这里插入图片描述

  • 5
    点赞
  • 51
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值