令人激动!谷歌推强化学习新框架「多巴胺」,基于TensorFlow,已开源丨附github...

郭一璞 发自 凹非寺 
量子位 报道 | 公众号 QbitAI

上周那个在DOTA2 TI8赛场上“装逼失败”的OpenAI Five,背后是强化学习的助推。

其实不仅仅是OpenAI Five,下围棋的AlphaGo和AlphaGo Zero、玩雅达利街机游戏的DeepMind DQN(deep Q-network),都离不开强化学习(Reinforcement Learning)。

640?wx_fmt=png

现在,谷歌发布了一个基于TensorFlow的强化学习开源框架,名叫Dopamine

另外,还有一组Dopamine的教学colab。

和它的名字Dopamine(多巴胺)一样,新框架听上去就令人激动。

清晰,简洁,易用

新框架在设计时就秉承着清晰简洁的理念,所以代码相对紧凑,大约是15个Python文件,基于Arcade Learning Environment (ALE)基准,整合了DQN、C51、 Rainbow agent精简版和ICML 2018上的Implicit Quantile Networks。

可再现

新框架中代码被完整的测试覆盖,可作为补充文档的形式,也可以用ALE来评估。

基准测试

为了让研究人员能快速比较自己的想法和已有的方法,该框架提供了DQN、C51、 Rainbow agent精简版和Implicit Quantile Networks的玩ALE基准下的那60个雅达利游戏的完整训练数据,以Python pickle文件和JSON数据文件的格式存储,并且放到了一个可视化网页中。

640?wx_fmt=png

另外,新框架中还有训练好的深度网络、原始统计日志,以及TensorBoard标注好的TensorFlow事件文件。

传送门

开源框架资源

Dopamine谷歌博客:
https://ai.googleblog.com/2018/08/introducing-new-framework-for-flexible.html

Dopamine github下载:
https://github.com/google/dopamine/tree/master/docs#downloads

colabs:
https://github.com/google/dopamine/blob/master/dopamine/colab/README.md

游戏训练可视化网页:
https://google.github.io/dopamine/baselines/plots.html

相关资料

ALE基准:
https://arxiv.org/abs/1207.4708

DQN(DeepMind):
https://storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf

C51(ICML 2017):
https://arxiv.org/abs/1707.06887

Rainbow:
https://arxiv.org/abs/1710.02298

Implicit Quantile Networks(ICML 2018):
https://arxiv.org/abs/1806.06923

加入社群

量子位AI社群19群开始招募啦,欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“交流群”,获取入群方式;


此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。


进专业群请在量子位公众号(QbitAI)对话界面回复关键字“专业群”,获取入群方式。(专业群审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

640?wx_fmt=jpeg

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值