如何看待自学3天的阿法元100:0完爆阿法狗?

点击有惊喜


Deepmind在如约在Nature发布了一篇名为《Mastering the game of Go without human knowledge》(不使用人类知识掌握围棋)的论文,在这篇重磅论文中,详细介绍了谷歌 DeepMind 团队最新的研究成果。人工智能的一项重要目标,是在没有任何先验知识的前提下,通过完全的自学,在极具挑战的领域,达到超人的境地。
nature

去年,有个小孩读遍人世所有的棋谱,辛勤打谱,苦思冥想,棋艺精进,4-1 打败世界冠军李世石,从此人间无敌手。他的名字叫阿法狗。
TIM_20171020113751

今年,他的弟弟只靠一副棋盘和黑白两子,没看过一个棋谱,也没有一个人指点,从零开始,自娱自乐,自己参悟,100-0 打败哥哥阿法狗。他的名字叫阿法元。

阿尔法元的最大亮点,在于无需任何人类指导,通过全新的强化学习方式自己成为自己的老师,在围棋这一最具挑战性的领域达到超过人类的精通程度。

人类其实把阿法狗教坏了! 新一代的阿法元(AlphaGo Zero),完全从零开始,不需要任何历史棋谱的指引,更不需要参考人类任何的先验知识,完全靠自己一个人强化学习(reinforcement learning)和参悟,棋艺增长远超阿法狗,百战百胜,以 100-0 击溃阿法狗。

达到这样一个水准,阿法元只需要在 4 个 TPU 上,花三天时间,自己左右互搏 490 万棋局。而它的哥哥阿法狗,需要在 48 个 TPU 上,花几个月的时间,学习三千万棋局,才打败人类。


点击有惊喜


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值