Alphago zero知识点

如何评价 DeepMind 发表在 Nature 的论文公开无需人类棋谱的 AlphaGo Zero

参考:https://charlesliuyx.github.io/2017/10/18/%E6%B7%B1%E5%85%A5%E6%B5%85%E5%87%BA%E7%9C%8B%E6%87%82AlphaGo%E5%85%83/#%E8%AE%BA%E6%96%87%E6%AD%A3%E6%96%87%E5%86%85%E5%AE%B9%E8%AF%A6%E7%BB%86%E8%A7%A3%E6%9E%90
参考:https://www.zhihu.com/question/66861459

强化学习

参考:http://geniferology.blogspot.com/2015/04/what-is-reinforcement-learning.html
参考:https://mubu.com/doc/WNKomuDNl

经验:
1. ResBlock
2. 强化学习
强化学习的领导研究者 Richard Sutton 认为,只有这种学习法才考虑到 自主个体、环境、奖励 等因素,所以它是人工智能中最 top-level 的 architecture,而其他人工智能的子系统,例如 logic 或 pattern recognition,都应该在它的控制之下,我觉得颇合理。
所以要制造 strong AI,一个可能的方案就是结合强化学习和某种处理复杂 world model 的能力

tensorflow实例源码:
https://github.com/yhyu13/AlphaGOZero-python-tensorflow/blob/32434d55466480ed2d3d042be654e62cf70d7cce/README.md

简化版本:
https://github.com/CharlesLiuyx/AlphaZero-Connect4

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

阿尔发go

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值