AlphaGo的由来

本文讲述了人工智能在围棋领域的重大进展,尤其是DeepMind的AlphaGo和AlphaGoZero,它们如何通过深度学习和强化学习在围棋比赛中击败人类冠军,以及AlphaGoZero的通用游戏人工智能能力。
摘要由CSDN通过智能技术生成

 围棋(Go) 作为棋盘游戏,围棋已有 2000 多年的历史。长期以来,它一直被认为是美与艺术的创 造,因为其规则很简单,但对弈非常复杂,并且曾认为在未来几十年中会经受住人工智 能的挑战。与许多武术类运动的晋级系统一致,围棋选手的实力以段位来衡量,例如, 多次获得围棋世界冠军的李世石拥有专业九段的头衔。在 2014 年,Nick Bostrom 做了如 下假设: 近年来,人工智能的围棋段位一直以约每年一段的速度精进。如果继续以这种速 度提高,那么人工智能可能会在十年内击败人类世界冠军。 DeepMind 的一个团队使用其 AlphaGo 算法在围棋领域取得了突破性进展(参见 DeepMind 网站中的 AlphaGo 页面),Silver 等人在 2016 年的研究中将情况描述如下: 由于其巨大的搜索空间以及评估棋盘局势和落子的难度,围棋一直被视为人工智 能经典游戏中最具挑战性的游戏。 DeepMind 团队成员将神经网络与蒙特卡罗树搜索算法相结合,并在论文中对此算法进行 了简要概述。回顾他们从 2015 年开始的早期成功尝试,该团队在介绍中指出: 我们的程序 AlphaGo 在对抗其他围棋程序时取得了 99.8% 的胜率,以 5–0 击败 了人类欧洲围棋冠军樊麾。这是计算机程序首次在全尺寸围棋棋盘上击败人类职 业棋手,而在此之前,大家认为至少需要十年才能实现这一壮举。 值得注意的是,在达到这一里程碑一年之前,资深人工智能研究人员 Nick Bostrom 预测可 能需要另外十年才能达到这一水平。然而,许多观察家表示,当时的欧洲围棋冠军樊麾并 不能真正被视为一个基准,因为世界围棋精英的水平要比其高得多。DeepMind 团队接受超级智能 | 33 了挑战,并于 2016 年 3 月组织了一场五局两胜制的比赛,对抗当时的 18 届世界围棋冠军 李世石——这无疑是人类精英级围棋比赛的一个合适的基准。为此,DeepMind 团队进一 步将 AlphaGo Fan 版本迭代为了 AlphaGo Lee 版本。 该赛事以及 AlphaGo Lee 的故事引起了全世界的关注,并被详细报道。DeepMind 在其网 页上写道: AlphaGo 于 2016 年 3 月在韩国首尔以 4–1 获胜,全球有超过 2 亿人观看。这一 里程碑式的成就超前了十年。该游戏为 AlphaGo 赢得了专业九段头衔,这是围棋 最高段位的认证,也是计算机围棋选手第一次获得该奖项。 在此之前,AlphaGo 是使用基于数百万人类专家游戏的训练数据集以及其他资源进行监督 学习的。DeepMind 团队的下一个迭代版本 AlphaGo Zero,完全跳过了这种方法,仅依靠 强化学习和自我对弈,将不同代且训练有素的基于神经网络的人工智能体放在一起相互 竞争。Silver 等人在其 2017 年发表的文章中介绍了 AlphaGo Zero 的详细信息。在摘要中, 研究人员总结道: AlphaGo 成了自己的老师:训练神经网络来预测自己的走法选择以及游戏的获胜 者。该神经网络提高了树搜索的强度,从而能在下一次迭代中产生更高质量的走 法选择和更强的自我对弈。从一无所知开始,新程序 AlphaGo Zero 取得了超人 的表现,以 100–0 战胜了之前发布的击败了李世石的 AlphaGo。 值得注意的是,AlphaGo 训练的神经网络与上一节的 CartPole 示例(基于自我对弈)中的 神经网络没有太大不同。该神经网络可以破解像围棋那样复杂的游戏,其可能的棋盘布局 超过了宇宙中的原子数。同样值得注意的是,该人工智能完全没有依赖人类玩家几个世纪 以来积累的围棋智慧。 DeepMind 团队并没有就此止步。AlphaZero 旨在成为一个通用的游戏人工智能体,能够 学习不同的复杂棋盘游戏,比如围棋、国际象棋和将棋(日本象棋)。关于 AlphaZero, DeepMind 团队成员 Silver 在其 2017 年发表的文章中总结道: 本文将这种方法推广到了单个 AlphaZero 算法中,该算法可以在许多具有挑战性 的领域实现超人的表现。从随机玩法开始,在除了游戏规则外没有任何领域知识 的情况下,24 小时内 AlphaZero 在国际象棋、将棋以及围棋游戏中达到了超越人 类的水平,并在每一个游戏领域都击败了世界冠军程序。 同样,DeepMind 在 2017 年达到了一个非凡的里程碑:一个玩游戏的人工智能体,经过不 到 24 小时的自我游戏和训练,在 3 个经过数百年深入研究的棋盘游戏中达到了高于人类 专家的水平。

  • 7
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值