10:1 !DeepMind 完虐人类顶级选手,AlphaStar攻克星际争霸II

10:1 !

 

与OpenAI挑战Dota2被人类对手血虐不同,谷歌DeepMind AI成功击败并完胜碾压《星际争霸II》顶级职业选手。

 

一场里程碑式的完胜碾压!

 

在昨晚刚刚结束的这场全球瞩目的人机大战中,DeepMind 推出的AI AlphaStar在两个独立的五场系列赛中成功获得了10场胜利,对手是来自Team Liquid俱乐部的人类职业选手TLO和MaNa。

 

 

昨晚放出的对战总共11场,其中10场是DeepMind在12月19日举行的一系列测试赛的比赛录像。第11场对战则是现场进行,这也是人类玩家MaNa击败AlphaStar的唯一一场比赛。所有的对战都是1V1的个人赛,而非团队赛。

 

比赛开打前,TLO自信满满地表示,他肯定能击败AlphaStar。结果是,他输掉了全部五场比赛。

 

TLO是现役职业选手德国人Dario Wünsch,在2018年WSC Circuit中排名44,在玩家中人气颇高。

 

另一位对战选手MaNa有“波兰王牌”之称,是一位25岁的职业玩家。MaNa惯用神族,在刚刚结束的IEM科隆站比赛中,MaNa在小组赛中以2:1战胜了韩国选手Jaedong。

 

在与TLO的对战中,AlphaStar占有一定的优势。首先,比赛使用的是神族,而TLO擅长的是人族。其次,AlphaStar的视野比人类玩家TLO更广,既能看清敌方的动作同时也能掌控自家的情况,实现全局资源调度。AlphaStar每场都采用了独特的策略。

 

 

而MaNa作为玩神族的顶尖职业玩家,在输掉5场比赛后,终于抓住了AlphaStar的弱点,艰难赢得一局,为人类选手挽回了一丝颜面。值得一提的是,在最后的现场比赛中,DeepMind限制了AlphaStar的游戏视角,并在没有测试的前提下与MaNa进行比赛。

 

不难看出,AlphaStar神经网络已经趋于长期优化,但似乎仍然会在一定程度上陷入局部最优,被人类发现固定模式,落入圈套。从 5 个小叮当抱团,到纯追猎部队,都显示出AlphaStar对游戏兵种的理解尚不到位。

 

《星际争霸2》由暴雪娱乐公司2010年7月27日出品,故事背景设定在一个虚构的科幻世界中,具有丰富的多层次游戏玩法。因为高度复杂性和策略性,这款游戏是人类玩家规模最大最成功的即时策略游戏之一。

 

AlphaStar是如何训练的

 

在接受采访时,DeepMind 科学家 Oriol Vinyals和David Silver 表示,AlphaStar首先是模仿学习,团队从许多选手那里获得了很多比赛回放资料,并试图让 AI 通过观察一个人所处的环境,尽可能地模仿某个特定的动作,从而理解星际争霸的基本知识。

 

这其中所使用到的训练资料不但包括专业选手,也包括业余选手。这是 AlphaStar 成型的第一步。

 

之后,团队会使用一个称为“Alpha League”的方法。这些 agent 通过强化学习过程与“Alpha League”中的其他竞争对手进行比赛,以尽可能有效地击败所有这些不同的策略。

 

 

所谓的Alpha League,是指一个连续的联盟,新的竞争者通过从现有竞争者中进行分支,动态地添加到联盟中。然后每个代理从与其他竞争对手的游戏对战中学习。这种新的训练形式将基于人群的强化学习理念进一步发扬光大,创造了一个不断探索《星际争霸》游戏玩法巨大战略空间的过程,同时确保每个竞争对手都能在最强的战略面前表现出色,并且不会忘记如何击败较早的战略。

 

 

随着联赛的发展和新的竞争对手的产生,新的对抗策略出现了,能够击败以前的策略。当一些新的竞争者执行一个仅仅是对以前的策略的改进策略时,另一些人发现了包含全新构建订单、单元组合和微观管理计划的全新策略。

 

为了鼓励联盟的多样性,每个代理都有自己的学习目标:例如,这个代理的目标应该是打败哪些竞争对手,以及影响代理如何发挥的任何其他内部动机。一个代理可能有打败某个特定竞争对手的目标,而另一个代理可能必须打败整个竞争对手分布,但这是通过构建更多特定的游戏单元来实现的。这些学习目标在培训过程中得到了调整。

 

为了训练AlphaStar,DeepMind使用谷歌的v3版本的TPU构建了一个高度可伸缩的分布式训练设置,它支持大量代理从数以千计的星际争霸2并行实例中学习。AlphaStar联赛运行了14天,每个代理使用16个TPU。

 

在训练期间,每个代理都经历了长达200年的星际争霸实时游戏。最终的AlphaStar代理由联盟的Nash分布组成——换句话说,已经发现的最有效的策略组合——运行在单个桌面GPU上。

 

《星际争霸II》的挑战

 

无疑,《星际争霸II》是难度系数最高的即时策略游戏之一。

 

“《星际争霸》游戏是人工智能社区的最高挑战。”DeepMind团队负责人Oriol Vinyals说,《星际争霸》的环境可测试诸多问题,比如规划计算、处理不确定性因素以及空间推理能力等。

 

 

在《星际争霸II》游戏中,击败对手是最终目标,但在游戏游戏还需要执行和平衡更多子目标,比如采集矿产资源,建造房屋等。

 

此外,由于战争迷雾的存在,人工智能玩家无法看到距离己方单位超过一定范围或被障碍物遮挡的场景信息。也就是说,《星际争霸II》是部分可观测,属于不完全信息博弈,反观围棋,整个棋盘是博弈双方都可见的,全部都可观测。

 

在实际操作中,星际争霸的鼠标可在屏幕任意位置点击、框选,并对框选单位执行复杂操作,而围棋只能在棋盘上没有棋子的线与线交叉的点上放棋子。

 

一般来说,《星际争霸II》玩家在同一时间可能有300多种行动选择,这对AI来说是巨大的挑战。在《星际争霸II》中玩家只有主视角以及小地图上的有限信息,获取全部的信息要点击小地图或编屏、切屏。即使一个小84X84的屏幕也会产生大约1亿种可能的行动选择。

 

由于游戏时长可能会长达一小时,导致因果关系不是即时的,这意味着游戏早前的行动可能在很长一段时间内没有反馈。这无疑大大增加了《星际争霸II》的复杂程度。

 

昨晚这场里程碑式的胜利表明,继AlphaGo之后,DeepMind的AlphaStar已经取得了飞速进展。

 

与《星际争霸II》这样复杂的游戏对战并取得胜利只是AI能力的一方面,DeepMind认为AlphaStar背后的技术可以用来解决很多其它问题。比如它的神经网络架构能够对很长时间的可能行为进行建模,在很长的数据序列上预测复杂问题,比如天气预报,气候建模、语言理解等。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值