第二届腾讯“开悟”大赛初赛放榜,强化学习研究还能这么快乐

感谢阅读腾讯AI Lab微信号第132篇文章。本文将介绍第二届腾讯「开悟」多智能体强化学习大赛初赛晋级名单及参赛团队情况。

一场发生在王者峡谷的赛事,背后竟然是清华、北大、中科大、电子科技大学……等20多所名校的学生和老师?

这不是一场简单的电竞赛事,而是一场AI领域的科研赛事——由腾讯AI Lab、王者荣耀、腾讯高校合作、腾讯游戏学院等联合举办,由腾讯云计算提供底层资源支持的第二届腾讯“开悟”多智能体强化学习大赛(简称“开悟”大赛)。

4a518d2c6393ccaf61b7500694ba334e.png

不同于常规电竞比赛,选手们并不是亲手操作英雄去战斗,他们的定位更类似于教练,通过编写的程序利用AI进行对抗。赛事基于“开悟”AI开放研究平台举行,依托于腾讯太极机器学习平台,选手可获取“开悟”提供的算法、算力、脱敏数据等资源。

就在上周,“开悟”大赛在官网发布了初赛成绩。10支队伍脱颖而出,晋级复赛。

a862ef204ba1334e3b86659965149eea.png

队伍成绩已公布于赛事官网 aiarena.tencent.com

AI也会「骚操作」

初赛的目标并不复杂:参赛队伍需要训练AI学会露娜、鲁班七号、橘右京等三位英雄,并在1v1墨家机关道地图中战胜对手的同一英雄,打爆对方的水晶。除了“召唤师”是AI以外,整体规则与《王者荣耀》游戏一致。

你可能要说:就这?但达成这个目标,对AI来说并不简单。

《王者荣耀》是一款需要玩家根据复杂多变的战场情况进行实时反应,制定策略的游戏,要求玩家掌握并融合实时感知、分析、理解、推理、决策等多种能力。因此,如何设计AI的行为权重、操作触发条件,以及决策是否正确的反馈机制则成为了比赛制胜的关键。

在初赛赛题中,就考查了智能体解决方案,模型结构设计,强化学习算法设计和训练方式探索等AI强化学习领域的硬核知识点。

初赛阶段,主办方希望让参赛者能够比较轻松地上手,并在“开悟”平台上体验到AI强化学习训练的完整流程。因此,赛事主办方为参赛队伍提供了一份benchmark,包括了训练所需要的所有环境配置以及基础的算法框架代码,让选手无需关心复杂的游戏逻辑以及搭建训练环境,就能快速掌握训练流程,并专注于核心算法的优化。得益于此,初赛大部分学生都顺利完成了赛题并提交了自己训练出来的模型。

在初赛的一场露娜1V1中,我们看到了一次可媲美真实玩家对战的AI精彩对决。

“欢迎来到王者荣耀。”随着语音响起,战斗正式打响。双方狭路相逢,在短暂交手试探后,便默契分开,各自靠小兵发育。

4f6337caa743c2cff9154fe277743d50.gif

接下来,在没有把握完成击杀的情况下,双方并没有选择穷追猛打,而是点到为止的交手了几次,都在血量告急时暂时退避,战况暂时陷入了胶着。

7b7131045733c95d385694d78a9c7ee9.gif

蓝方率先抓住了机会,该出手时就出手,越塔完成了首次击杀。

到了后期战事越发激烈,双方你来我往,互不让步。

最终,蓝方靠着前期积攒的优势,对着红方发起了最后一击。虽然红方露娜在还剩最后一丝血皮时试图撤出战场,但难以力挽狂澜。最终,以蓝方露娜击破红方水晶塔获胜。

9471af0dc0d2483ce6e786fcbbaeb1a1.gif

可以看到,经过短短两个月的学习和研发,学生们已经交出了可圈可点的答卷。当然,这离不开老师和同学们大量的心血投入。

像电竞教练一样训练AI

自AlphaGo一鸣惊人后,越来越多AI研究团队意识到,游戏是AI的最佳训练场之一:若AI能在如此复杂的环境中,学会人一样实时感知、分析、理解、推理、决策到行动,就可能在多变、复杂的真实环境中发挥更大作用。

在游戏环境中开发AI,这对清华大学计算机系队的陈华玉同学并不陌生,在清华校内就有类似的比赛。但他没有想到,有一天能够将自己的专业与所喜爱的《王者荣耀》游戏结合起来。

在收到老师通知之后,他马上决定参加赛事,并承担起了拉人组队的工作。除了喜欢游戏以外,更主要的原因是“开悟”整合游戏环境、算法、算力、脱敏数据等资源,能够提供一个研究强化学习算法的理想环境

“之前一直没有机会去做,因为它需要一个非常大的平台,以及大量的计算资源,以个人的能力去做会很困难。”陈华玉说,与他有相同想法的同学很多,招人信息发出去后,马上收到了20多份简历。

当然,“开悟”大赛的玩法和普通的游戏局并不一样。来自深圳大学的唐致烨同学是第二次参赛,去年止步于初赛的他今年格外上心,在开赛前就开始研究腾讯AI Lab过往几篇关于“绝悟”(达到王者荣耀职业电竞水平的策略协作型AI)的论文。

“我们在赛事过程中更像是一个电竞教练。”他这样评价参加“开悟”大赛的体验。“我们要分析玩家在游戏时会考虑哪些因素,然后对这些因素进行思考,也会请擅长王者的队友看视频辅助调参数,挺有趣的。”

陈华玉和唐致烨的队伍都进入了复赛。在对自己队伍的初赛表现进行复盘时,两位都认为,在面对一个比较复杂的研究项目时,队伍内部的分工合作很重要。“有人负责开发,有人负责动作空间,有人专门负责实验。”他们形容,这和玩游戏时的组队奋战有点像,5个人运用不同的“职业”特长,走在不同的路线上,最终一起攻破水晶。

而在老师的眼中,同学们在比赛中展现出的学习热情更让人惊喜。清华计算机队的指导老师阎栋表示:“现在的这些同学们非常喜欢王者荣耀,利用兴趣驱动去做事,也能提升主动学习积极性。

尽管平台还有许多需要不断迭代优化的空间,但老师们对它寄予厚望。深大指导老师王旭就非常期待与“开悟”平台的进一步合作:“我期待平台能够进一步开放,与专业课进一步深度结合,形成一个类似于训练或者教育的平台。

事实上,为普及多智能体强化学习研究,“开悟”早已向高校抛出了橄榄枝。今年4月,腾讯“开悟”联合国内多所高校成立了人工智能科教联盟,并携手高校、科研院所、产业园区、投资机构组建人工智能科创联合体。

王老师的期望也即将变成现实。今年8月,腾讯宣布与四所国内一流高校(北京大学、电子科技大学、清华大学、中国科学技术大学)的老师合作开发基于“开悟”平台的人工智能实践课程,理论授课包括但不限于机器学习、强化学习、多智能体决策等相关的知识点,运用王者荣耀作为实践验证场景,以更轻松的方式,传授同学们AI相关知识。未来,这一课程将逐步推广向更多有意接入的高校。

我们目标是星辰大海

在接下来的两个月内,选手们将迎来更高难度的复赛——3v3团体战。这一课题意味着选手需要在设计AI时,考虑到多个智能体之间的配合协作

此外,复赛长平攻防战使用的地图,也比初赛的墨家机关道更复杂。场地分为上野区、下野区和中路三部分,且新增了草丛(可隐藏角色的地图区域)、野怪(击杀可掉落金币)等元素,意味着AI拥有了更大的状态空间,且需要考虑不同定位的英雄的奖励函数设计,难度再次升级。

43499578a4c4d54ef74e67465611512a.png

更高难度的挑战,正是参赛者们所期待的。陈华玉至今印象最深刻的,还是初赛期间所遇到的难题,以及解决这些问题时巨大的成就感:“当发现我们想出的数据,真的有助于算法改进的时候,这种感觉还挺好的。”

研究的快乐,也让唐致烨想要探索更遥远的地方:“在比赛过程中,我发现强化学习是挺有意思的一个领域,我未来可能也会往这个方向去走。”

“开悟”的目标则看得更远:赛事希望更高难度的挑战,能帮助参赛者沉淀更多的强化学习研究经验,从而为AI与现实场景的结合创造更多可能。

基于游戏虚拟场景,训练AI的通用能力,让更智能的AI在各领域服务人类,是游戏AI研究的核心目标。举个例子,假如AI在王者峡谷中,能够快速分析瞬息万变的环境和对手并作出决策,这个能力运用于同样复杂的真实城市路况,就是自动驾驶AI的雏形;当AI学会了如何控制5个队友配合互助,或许就能在工业环境中操作多个机器人,完成复杂的生产任务。

作为国内“AI+游戏”方向的先行探路者,腾讯AI Lab已基于“绝悟”、“绝艺”等多项前沿成果,初步将其AI技术应用于游戏、医疗等产业。

在“助力产学研,共享AI新生态”愿景的引领下,“开悟”希望能够成为这些年轻人们走向星辰大海的第一块阶梯。随着他们的成长,AI将加速与医疗、工业、农业、交通等更多场景融合,并逐步成为全真互联世界的基建设施,构建未来数字生活新体验。

ff9b2763cf09f118a4fb22b8caf5a6c5.png

* 欢迎转载,请注明来自腾讯AI Lab微信(tencent_ailab)

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值