如何评价 DeepMind 发表在 Nature 的论文公开无需人类棋谱的 AlphaGo Zero
参考:https://charlesliuyx.github.io/2017/10/18/%E6%B7%B1%E5%85%A5%E6%B5%85%E5%87%BA%E7%9C%8B%E6%87%82AlphaGo%E5%85%83/#%E8%AE%BA%E6%96%87%E6%AD%A3%E6%96%87%E5%86%85%E5%AE%B9%E8%AF%A6%E7%BB%86%E8%A7%A3%E6%9E%90
参考:https://www.zhihu.com/question/66861459
强化学习
参考:http://geniferology.blogspot.com/2015/04/what-is-reinforcement-learning.html
参考:https://mubu.com/doc/WNKomuDNl
经验:
1. ResBlock
2. 强化学习
强化学习的领导研究者 Richard Sutton 认为,只有这种学习法才考虑到 自主个体、环境、奖励 等因素,所以它是人工智能中最 top-level 的 architecture,而其他人工智能的子系统,例如 logic 或 pattern recognition,都应该在它的控制之下,我觉得颇合理。
所以要制造 strong AI,一个可能的方案就是结合强化学习和某种处理复杂 world model 的能力
tensorflow实例源码:
https://github.com/yhyu13/AlphaGOZero-python-tensorflow/blob/32434d55466480ed2d3d042be654e62cf70d7cce/README.md