202000 - AlphaGo如何进化为孤独求败?

独孤求败,金庸笔下功高盖世的武林前辈,江湖虽没有他的身影,却处处有他的传说。其墓碑前刻有:“纵横江湖三十余载,败尽英雄,天下更无敌手,无可奈何隐居深谷,呜呼哀哉,生平难求一敌手!”[1]

剑的江湖,有孤独求败!

围棋的江湖,也有孤独求败,正是AlphaGo.

初出茅庐
2015/10, 谷歌开发的名为“阿尔法围棋”(AlphaGo)的AI机器人横空出世[2],AlphaGo-Fan以5:0完胜欧洲围棋冠军、职业二段选手樊麾。

一鸣惊人:大哥 - AlphaGo-Lee
2016/3/9-15,在韩国首尔,AlphaGo-Lee以4:1战胜世界围棋冠军李世石。

无人能敌:二哥 - AlphaGo-Master
2017/5/23-27, 在中国乌镇围棋峰会上,AlphaGo-Master以3:0战胜世界第一的围棋冠军柯洁。

孤独求败:终结者 - AlphaGo Zero[3]
2017/10/19,DeepMind(谷歌旗下公司,AlphaGo出生地)在《Nature》杂志上发表论文,报告新版AlphaGo Zero,抛弃人类经验,从零开始,自学围棋,3天战胜了大哥哥AlphaGo-Lee;21天后,又战胜了二哥AlphaGo-Master;40天后,已经妥妥地称霸天下,孤独求败。

AlphaGo Zero放弃了之前基于人类经验的“监督学习”思路,而是改用了“强化学习”+“监督学习”的思路。
大量的人类棋局作为数据输入的思路被摈弃,开发者只是告诉AlphaGoZero围棋的规则,然后让双胞胎兄弟互相切磋,从零开始,自学成才。
每秒可以下8万步,一盘棋400步不到,每秒就下了200盘。
每盘棋后长进一点,到7个小时,也就相当于下了500万盘棋后,就已经有模有样了。
一天半后,也就是下了2600万盘后,已经可以战胜大哥AlphaGo-Lee了。
三天后,100:0直接将大哥打趴。
后面的事情就是超越二哥,并且难求一败了。

AlphaGo在没有人类对手后,2017年5月25日,AlphaGo之父杰米斯·哈萨比斯宣布AlphaGo退役。
AlphaGo的研究计划于2014年开始,从业余棋手的水平到世界第一,AlphaGo的棋力获取这样的进步,仅仅花了两年左右。

AlphaGo虽已退休,但技术永存。

“强化学习”势必会为人类带来更多的借鉴与思考。

链接: [1] 独孤求败 词条(https://baike.baidu.com/item/%E7%8B%AC%E5%AD%A4%E6%B1%82%E8%B4%A5/24317?fr=aladdin).
[2] AlphaGo 词条(https://baike.baidu.com/item/%E9%98%BF%E5%B0%94%E6%B3%95%E5%9B%B4%E6%A3%8B/19319610?)
[3] AlphaGo Zero横空出世 完全自学21天虐Master (http://sports.sina.com.cn/go/2017-10-19/doc-ifymzqpq2269773.shtml)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值