AI挑战《黑神话·悟空》:阿里大模型超越人类玩家

《黑神话·悟空》中的精英怪——牯护院,已经被AI智能体轻松击败,AI不仅能灵活躲闪和精确攻击,甚至在对抗鸦香客和牯护院时,其胜率已超越了人类玩家。而这些操作完全依赖于阿里巴巴研究团队提出的新型VARP(视觉动作角色扮演)智能体框架,完全没有使用强化学习。

图片

这个AI智能体通过将游戏截图作为输入,通过视觉语言模型(VLMs)进行推理,生成Python代码来控制游戏角色动作。以《黑神话·悟空》为例,该智能体在90%的简单和中等难度战斗场景中都能获胜。VARP框架的核心包括动作规划系统和人类引导轨迹系统。动作规划系统通过情境库、动作库和人类引导库进行推理,结合视觉输入生成智能决策,而人类引导轨迹系统则通过人类操作数据帮助优化智能体的表现,特别是在面对困难任务时,通过查询历史操作生成更加精确的动作。

图片

具体来看,VARP框架中,智能体可以灵活调用多种库。动作库中包含由VLM推理生成的动作方案、新的自定义动作以及通过人类指导生成的动作。这些库的设计使智能体能够在复杂的战斗场景中灵活应对,并自我学习和优化。

图片

在测试中,阿里团队使用了GPT-4o(2024-0513版本)、Claude 3.5 Sonnet和Gemini 1.5 Pro三种大模型。实验数据显示,在对抗普通小怪时,AI的表现已与人类玩家不相上下。而在面对牯护院时,GPT-4o表现最佳,其胜率甚至超过了人类玩家,而Claude 3.5则未能通过考验。但面对《黑神话》中的幽魂这一具有挑战性的BOSS时,所有AI模型的表现都不尽如人意。

图片

这一AI框架还揭示了大模型在游戏推理中的一些局限。由于VLM的推理速度较慢,AI无法处理每一帧游戏画面,因此只能通过关键帧输入来做出决策,这有时会导致错失敌人攻击的关键信息。此外,由于游戏中没有明确的路径引导,AI在没有人类操作辅助的情况下,依旧难以找到正确的路线。

以玩《黑神话·悟空》为例,该智能体在90%简单和中等水平战斗场景中取胜。

这项研究来自阿里巴巴的团队,整个研究团队包括五位作者,未来计划公开相关代码和数据集。令人期待的是,这项研究不仅展示了AI在游戏场景中的应用潜力,也为大模型的多领域扩展提供了全新的思路。

研究人员以《黑神话·悟空》为研究平台,一共定义了12个任务,75%与战斗有关。

图片

他们构建了一个人类操作数据集,包含键鼠操作和游戏截图,一共1000条有效数据。

每个操作都是由原子命令的各种组合组成的序列。原子命令包括轻攻、闪避、重攻击、回血等。

图片

事实上,AI打游戏并不是新鲜事,比如,基于强化学习的AI已能够在《星际争霸II》中击败人类职业选手。然而,这项研究的独特之处在于,它使用的是纯大模型进行游戏推理,并没有借助强化学习。以前,依赖强化学习的AI需要大量的训练数据和对局记录,比如商汤科技的DI-star就依赖“16万场录像”和“1亿局对战”来完成训练。

相比之下,这项研究中的AI智能体只依赖1000条有效数据,通过大模型推理实现了高水平的游戏操作。通过这种方法,阿里团队证明了大模型在复杂动态任务中的潜力,并展示了其在不借助传统强化学习的情况下也能胜任挑战性任务。

这项研究不仅对于游戏AI领域意义重大,也为大模型在更多领域的应用打开了新的可能性。随着研究的深入,未来AI在更多互动性强、复杂度高的任务中可能会表现出更强的能力。而阿里团队的这一突破无疑为大模型的多元化发展提供了有力的支持。未来,随着技术的进一步优化,我们或许能看到AI在游戏、影视、虚拟现实等更多领域展现出令人惊叹的实力。

论文地址:
https://arxiv.org/abs/2409.12889

项目地址:
https://varp-agent.github.io/

GPT4o需要私我。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值