「绝悟」AI 再次亮相GDC,展示人机协作与内容生成能力

感谢阅读腾讯AI Lab微信号第139篇文章。本文将介绍腾讯「绝悟」再次参加GDC 2022(Game Developers Conference,游戏开发者大会),分享AI在玩家教学、关卡生成两方面应用案例。

全球游戏行业年度盛会“2022游戏开发者大会”(英文:Game Developers Conference,简称GDC)于近日举办。腾讯 AI Lab 在大会上展示了 AI+游戏两项进展,包括「绝悟」AI 应用于玩家教学,及算法自动生成关卡,展示了AI技术丰富玩家体验、降低制作成本的能力。这两项进展也代表了腾讯 AI Lab 向 AI 深入游戏产业全链路布局更近一步。

AI技术在游戏全链路的研究与应用包含两部分,在横向上,覆盖游戏制作、运营及周边生态全生命周期,提升游戏品质,丰富玩家体验;在纵向上,AI正拓展更多元的游戏品类。在去年GDC大会上,腾讯AI Lab就展示了AI在不同类型游戏上的应用成果,包括提高游戏开发效率、打造新玩法、辅助游戏平衡性测试等案例经验。点此回顾:「绝悟」参展游戏开发者大会,AI深入游戏产业全链路

与此同时,AI 在游戏场景中不断提升通用智能,也将有助于解决现实世界真实问题,并推进迈向虚实融合未来。

ec08977e28cbe5e34e0f4c004eeafa60.png

腾讯AI Lab:AI技术在游戏产业全链路中的研究与应用能力

「绝悟」AI玩家教学

提升人机协作能力

「绝悟」是腾讯Al Lab研发的决策智能Al,已在MOBA、FPS、RTS、3D开放世界等多类复杂策略游戏中取得了国际顶尖的研究成果。基于不断提升的复杂长期决策和团队协作能力,绝悟也已应用于多款游戏,赋能游戏制作与运营环节。

和王者荣耀共同研发的「王者绝悟」已表现出媲美人类顶尖职业选手的决策能力。如「王者绝悟」能把一身本领传授玩家,将能帮助玩家快速提升竞技水平。这需要AI具备形式丰富的信息交流与协作能力。但此前竞技型的「王者绝悟」是基于智能体间的建模训练而成,这种建模方式导致AI难以理解人类玩家意图,因此无法实现对玩家的交流指导。

人机协作技术解决了这一问题,成功让「王者绝悟」实现AI教学。在游戏内“绝悟试炼”玩法中,「王者绝悟」身兼队友及老师,与玩家在真实对战环境中交流协作,并在过程中向玩家传授职业级的策略与操作技术,帮助玩家迅速熟悉英雄操作与游戏玩法。数据显示,在引入「王者绝悟」AI教学后,玩家单局游戏主动沟通的次数提高了56%,提高了PVE玩法的可玩性。

具体到技术方案,人机协作要应对AI与玩家之间理解、沟通、协作三个层面的挑战:

● 「王者绝悟」通过自对弈探索策略,与玩家“师出不同门”,两者在策略和行为上存在差异,如何让AI理解玩家意图?

● 玩家与玩家之间通过语音文字等交流,但AI描述信息的方式与人类截然不同,如何让双方有效沟通?

● 当玩家和AI的策略不同时,如何合理地进行协作?

为了解决这些问题,我们使用了之前提出的MGG算法(Learning Diverse Policies in MOBA Games via Macro-Goals,Neurips 2021收录)来搭建仿真的人机协作环境。MGG使用分层建模的思想,将任务分解为宏观策略建模和微观操作建模。其中,宏观策略模型负责战略层面的长期规划,微观操作模型则在宏观策略的指导下进行实时决策。然后,我们通过构建基于专家知识的宏观策略模型,来引导AI学习玩家的策略,并让AI在自对弈训练中与不同策略的队友进行组队,从而能更好地理解玩家的意图。


706cf4b8055621ce84521f763d0773d5.png

实现人机“同频”之后,接下来是沟通和协作的问题。首先我们用基于专家策略的AI模型模拟玩家,再使用各种不同策略的AI模型分别模拟对手和队友,从而搭建起一个高度仿真的人机协作的环境。然后,我们在宏观策略层面建模了信息交流,通过构建通用的通信协议“元指令”来描述战略意图,实现AI与玩家的交流。

ba830707bc94090a4f9690f79a2a9638.png

同时,我们还训练了一个指令选择器,利用长期奖励和自对弈来评估“元指令”的价值,从而完成合理的协作。「王者绝悟」在人机教学中主要有两种协作模式,一种是被动式协作,即玩家发送指令给AI队友,AI队友使用指令选择器评估价值,执行其中有价值的指令并向玩家反馈。另一种是主动式协作,AI队友用职业级的宏观策略作为元指令发送给玩家,指导玩家去哪里、做什么。

09d42c30ddb8a3b37bb85277f074fe12.png

来看看人机协作的实战效果。在玩家发出各种指令后,AI会根据血量、距离等实际情况,评估指令的合理性,选择执行或拒绝。同时,AI还能执行一系列的多指令任务(如集合 - 抢夺资源 - 撤退),完成更复杂的协作。

随着人工智能技术的发展,人机协作将成为未来重要模式,“理解-沟通-协作”是实现这一目标的通用问题。「王者绝悟」在王者荣耀人机教学场景下的应用探索,不仅适用于大多数MOBA游戏,为玩家带来价值,也是对未来更多现实场景中人机协作方向的有利探索。

AI自动生成游戏关卡

推进虚实融合未来

游戏内容通常包括角色、地图、建筑、关卡、世界等,而游戏内容的制作成本很高,一般来说,一款大型游戏需要数百人花费几年时间开发。程序化内容生成(Procedural Content Generation,PCG)近年来成为游戏行业的一大热点,即通过程序算法自动生成游戏内容,提高制作效率。

由于消耗速度远快于生产,程序化生成游戏关卡的需求尤为突出。比如你可能花几分钟就完成一关《超级马里奥兄弟》,游戏制作方却需要几天或几周的时间来开发。此前行业已有基于构造、基于搜索和基于模型等方法,但这些方法生成的关卡通常缺少对实际游戏体验的建模,例如:难度、节奏等。

利用AI bot技术自动生成游戏关卡的优势明显,AI bot可以作为人类玩家的代理,代替人类进行大规模地关卡评估和测试,降低人力成本;还能提供更多语义信息,减少对训练数据的依赖;以及根据语义信息提升生成关卡的游戏体验

腾讯AI Lab正探索将AI自动生成关卡技术应用于2D、3D等类型的游戏之中。在本次大会上,我们以一款自研的2D小游戏作为案例,只需要不到一百个训练关卡作为输入,AI即可在几个小时内生成一千多个可玩的、高质量、多样化的关卡。

a15ccdc7f1c631437f76227f60822e76.png

具体到技术方案,AI的第一个任务是生成可玩的关卡。我们可以借助AI bot跑图并筛选出可玩的关卡,这里的核心是如何训练一个通关能力强、泛化能力好的AI bot,它可以评估大量没有见过的关卡。在特征上,我们使用以AI bot为中心的相对位置特征,去除了绝对坐标相关的特征,防止模型过拟合;在数据上,我们使用大量生成的关卡作为AI bot的训练关卡,提高泛化能力;在模型上,我们使用PPO算法和RND算法让AI bot更稳更快地探索通关。最后利用AI bot跑图测试滤掉不可玩的关卡。

第二步,在可玩的基础上,AI要提升关卡的质量,高质量的关卡是指符合游戏设计规范、美学、乐趣等,更重要的是需要和种子关卡的游戏体验是一致的。我们可以通过AI bot跑图模拟对局结果,可以获取体验相关的特征,例如:每帧的承伤、子弹位置等,然后基于种子关卡和少量人类标注数据训练评估器模型。最后结合MCTS算法和评估器模型进行搜索,相比随机搜索,MCTS生成的关卡的评估得分提升约50%

6b4891df075212f49824bcb15c109237.png

最后,重复相似的关卡会直接影响玩家的体验,因此AI还要能识别并去除相似的关卡。我们采用的是无监督训练模型自编码器,该方法不需要依赖有标注的数据,在自编码器的基础上,我们加入了AI bot跑图的语义信息作为监督信号,让自编码器的隐层去预测跑图结果,这样可以使得关卡编码向量除了刻画关卡的视觉信息之外,还可以刻画游戏体验的语义信息。最后通过自编码器学习到的关卡编码向量进行相似度计算,从而过滤掉相似的关卡。

18e10a9b98c948888a04ac876a33fff3.png

此外,AI还可以用于动态难度调整,让玩家能从具有挑战的关卡中获得成就感,又不至于“卡关”。我们的方法是通过AI bot模拟不同buff的难度效果,建立buff与难度之间的映射,根据玩家实际的表现,动态投放合适的buff来提升玩家的心流体验。

借助关卡编辑器工具,AI还可与玩家协作生成关卡,AI可以根据玩家制作和修改的关卡来迭代模型训练和关卡生成的效果,玩家也可以获得更高质量和更多样的关卡进行二次创作。这也是用户生成内容(UGC)趋势下,AI技术的潜在应用之一。

相比之下,AI生成3D关卡内容则要复杂得多,3D关卡涉及地形起伏、元素之间的关联、不同分辨率的元素、路线与区域规划等,更考验AI的生成能力。目前腾讯AI Lab已在约200个训练关卡的基础上,结合人类的标注编辑,生成了超过一万个3D关卡,并在持续探索AI在3D领域的多种内容生成能力。

e5200475b73d8d7de8d9169ad5c0d806.png

展望未来,虚拟世界与真实世界将高度融合,人们生活工作的更多方面将实现线上、线下一体化。前沿AI正成为虚实融合未来的基础设施,将助力构建更加开放、庞大、多样且高品质的虚拟世界,创造前所未有的体验与机遇。

5c9887f99b0bb4b26d201eb21072886f.png

* 欢迎转载,请注明来自腾讯AI Lab微信(tencent_ailab)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值