独孤求败,金庸笔下功高盖世的武林前辈,江湖虽没有他的身影,却处处有他的传说。其墓碑前刻有:“纵横江湖三十余载,败尽英雄,天下更无敌手,无可奈何隐居深谷,呜呼哀哉,生平难求一敌手!”[1]
剑的江湖,有孤独求败!
围棋的江湖,也有孤独求败,正是AlphaGo.
初出茅庐
2015/10, 谷歌开发的名为“阿尔法围棋”(AlphaGo)的AI机器人横空出世[2],AlphaGo-Fan以5:0完胜欧洲围棋冠军、职业二段选手樊麾。
一鸣惊人:大哥 - AlphaGo-Lee
2016/3/9-15,在韩国首尔,AlphaGo-Lee以4:1战胜世界围棋冠军李世石。
无人能敌:二哥 - AlphaGo-Master
2017/5/23-27, 在中国乌镇围棋峰会上,AlphaGo-Master以3:0战胜世界第一的围棋冠军柯洁。
孤独求败:终结者 - AlphaGo Zero[3]
2017/10/19,DeepMind(谷歌旗下公司,AlphaGo出生地)在《Nature》杂志上发表论文,报告新版AlphaGo Zero,抛弃人类经验,从零开始,自学围棋,3天战胜了大哥哥AlphaGo-Lee;21天后,又战胜了二哥AlphaGo-Master;40天后,已经妥妥地称霸天下,孤独求败。
AlphaGo Zero放弃了之前基于人类经验的“监督学习”思路,而是改用了“强化学习”+“监督学习”的思路。
大量的人类棋局作为数据输入的思路被摈弃,开发者只是告诉AlphaGoZero围棋的规则,然后让双胞胎兄弟互相切磋,从零开始,自学成才。
每秒可以下8万步,一盘棋400步不到,每秒就下了200盘。
每盘棋后长进一点,到7个小时,也就相当于下了500万盘棋后,就已经有模有样了。
一天半后,也就是下了2600万盘后,已经可以战胜大哥AlphaGo-Lee了。
三天后,100:0直接将大哥打趴。
后面的事情就是超越二哥,并且难求一败了。
AlphaGo在没有人类对手后,2017年5月25日,AlphaGo之父杰米斯·哈萨比斯宣布AlphaGo退役。
AlphaGo的研究计划于2014年开始,从业余棋手的水平到世界第一,AlphaGo的棋力获取这样的进步,仅仅花了两年左右。
AlphaGo虽已退休,但技术永存。
“强化学习”势必会为人类带来更多的借鉴与思考。
链接: [1] 独孤求败 词条(https://baike.baidu.com/item/%E7%8B%AC%E5%AD%A4%E6%B1%82%E8%B4%A5/24317?fr=aladdin).
[2] AlphaGo 词条(https://baike.baidu.com/item/%E9%98%BF%E5%B0%94%E6%B3%95%E5%9B%B4%E6%A3%8B/19319610?)
[3] AlphaGo Zero横空出世 完全自学21天虐Master (http://sports.sina.com.cn/go/2017-10-19/doc-ifymzqpq2269773.shtml)