李根 假装发自 克普鲁
量子位 报道 | 公众号 QbitAI
看看别人家的玩游戏事迹。
在北京大学第42届ACM-ICPC国际大学生程序设计竞赛全球总决赛现场,一款基于《星际争霸II》的AI人机协作挑战赛也在同期进行,主办方启元世界,一家主打决策智能的AI初创公司。
比这家初创公司更知名的是其创办者:前阿里淘宝推荐算法团队创始人袁泉(算法P10),以及前阿里搜索广告架构负责人龙海涛,他们都出自阿里电商核心部门。
△ 启元世界创始人兼CEO袁泉(左)与联合创始人兼CTO龙海涛(右)
“星际是我们一代人的青春记忆,也是决策智能绝佳的训练场景”,出于对《星际争霸》的热爱,也出于决策智能的笃定,他们在2017年携手创业,并且很快获得高榕资本数千万元天使投资。
袁泉和龙海涛,都不简单。
袁泉和龙海涛其人
袁泉,离职前担任阿里认知计算实验室负责人、资深总监,是手机淘宝、手机天猫推荐算法团队缔造者,2013年到2016年期间率队打造了“千人千面”的手淘推荐系统,因此还拿下了当年双11的CEO特别贡献奖。“有好货”、“猜你喜欢”等电商个性化产品,均出自其间。
加入阿里前,袁泉是IBM中国研究院的研究员,从事推荐等智能决策算法的研究,是IBM2011年全球银行业FOAK创新项目发起人。
学术方面,还有十余篇论文中标国际顶级会议ACM RecSys、KDD、SDM等,拥有多项中美技术专利,长期担任ACM RecSys审稿人、IEEE Transaction on Games审稿人。
龙海涛则是袁泉阿里和IBM中国研究院的老战友。在2013-2017年期间,龙海涛在阿里巴巴负责搜索广告业务的架构设计,主导了其核心的离线系统、在线引擎和索引内核的升级换代,并因此获得了阿里妈妈“最佳团队奖”、“最佳项目奖”和“双十一个人创新特别奖”。
IBM研究院期间,他则从事移动计算方面的研究。之后还有过多年成功的技术创业经历,为电信、银行、能源等大型企业提供过IT解决方案。
目前,袁泉和龙海涛已经组建起了一支几十人规模的团队,在位于北京海淀区的办公室,整日“吃饭睡觉打游戏”,以及搞AI。
AI打星际
利用打游戏搞AI,已经不算陌生。
广泛一点看,AlphaGo、冷扑大师等标志性的AI事件都在打游戏。
即便狭隘一些,DeepMind、OpenAI等知名组织也都希望从星际、DOTA2这样的游戏中寻得AI突破,腾讯则还用AI+游戏进行模型算法研发、训练。
那为啥启元世界也选择《星际争霸》?
袁泉告诉量子位,《星际争霸》一直是游戏玩家心目中即时战略类的经典之作,历时十多年而不衰,现在之所以成为深度强化学习、决策智能算法研究的一个主要平台和工具,是因为其蕴含了多智能体协作、多任务学习、宏观策略规划等复杂问题,一旦取得部分突破和进展,对商业和社会发展都会带来极大影响。同时,《星际争霸》十多年来积累了非常非常多的数据,还可以从之前的经验中进行学习和优化算法。
此外挑战也看得见。
第一,比起像围棋或者象棋这种大家都可能看得见的、完全信息下的博弈,《星际争霸》是有战争迷雾的,所以必须去探路、侦查、了解对手的信息,从而在不确定的情况下去做智能决策。
第二,有非常巨大的搜索空间。围棋的搜索空间大概在10^170,《星际争霸》在128×128的地图上并且人口上限是400个unit的情况下,它的搜索空间大概在10^1685,比围棋高很多个数量级,这还没有算上其他状态(比如说血量等等)的情况下。所以现有的任意一个单一算法根本不可能解决《星际争霸》里面所有的问题。
第三,星际是一个即时对抗类的游戏。如果说正常游戏大概是1秒钟24帧,那在星际中必须在42毫秒之内做出迅速的反应,而且这个反应不是一个action,而是一系列的action,每个unit都会采取行动,这对我们算法的性能、效率、工程上的考虑都是非常大的挑战。
第四,时间、空间上的推理。想要玩好星际,必须基于时序上、空间上去做推理,比如说地理位置的优势,坦克如果架在哪里可能会比较好,如果开分机在哪个位置去开会比较有利,甚至于军营造在什么地方,这些对于AI来说都需要进行一个空间上的推理。
最后,涉及多个智能体协作。《星际争霸》最高有400个unit,所以需要多个智能体协作,需要多个兵种去配合,这对AI来讲也是一个很大的挑战。
可以顺路一提的是,关于AI打《星际争霸》,量子位也有过专门文章介绍,并且传送过暴雪和DeepMind的工具包,感兴趣即可移步。
启元世界挑战赛
在此次ACM-ICPC赞助活动现场,启元世界也基于《星际争霸II》给出了两道人机协作的挑战赛。
赛题一 :人机协作 vs 机机协作
水晶采集赛:在规定时间内,分为A、B两队,每队两个单位分别收集地图上的蓝色水晶。A队为1人加1个具备协作能力的AI智能体;B队为两个具备协作能力的AI智能体。 比赛的关键在于A队中的人和AI能否实时观察、理解对方的意图与行动,并能采取有效的行为进行合理分工,采集到更多的水晶。
赛题二:人机对抗赛
Reaper争霸:玩家与AI分布操控10个星际争霸II中独具特色一类角色——Reaper,在广袤的场地上进行对抗博弈。Reaper可发射一般子弹,也可以扔出手雷。选手需要审时度势,根据不同的游戏场景,采取灵活的协作博弈策略,操控己方的单位对AI一方进行攻击,取得比赛的胜利。
在ACM-ICPC期间,有意者均可前往北大英杰交流中心试试。
或者直接寻求拿着薪水打游戏,袁泉说目前公司在算法、工程方面都希望招贤纳士,扩充更多工程师入坑一起“玩游戏”。
当然,更长远未来,从《星际争霸》中学习训练的AI,还会进入各行各业,从工业机器人的生产与操控,到自动化农业,智能交通、物联网领域,都不缺乏应用场景。
作者系网易新闻·网易号“各有态度”签约作者
— 完 —
诚挚招聘
量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态