SwarmBrain:通过LLM实现实时战略游戏星际争霸II的具身智体

24年1月BMW的论文“SwarmBrain: embodied agent for real-time strategy game starcraft ii via large language models”。

SwarmBrain是一种在《星际争霸II》中利用LLM实现实时战略的嵌入式智体。SwarmBrain由两个关键组成部分组成:1)Overmind 智能矩阵由LLM提供支持,旨在从高层角度协调宏观战略。这个矩阵模拟虫族(Zerg)智能大脑的总体意识,综合了战略远见,目的是分配资源、指挥扩张和协调多管齐下的攻击。2) Swarm ReflexNet,它与Overmind 智能矩阵的谨慎计算相对应。由于LLM推理中固有的延迟,Swarm ReflexNet采用了条件响应状态机框架,能够为基本Zerg单元机动提供快速的战术响应。

实验中SwarmBrain控制着Zerg与计算机控制的人族(Terran)对手进行对抗。实验结果表明,SwarmBrain有能力进行经济扩张、领土扩张和战术制定,并表明SwarmBraine有能力在不同难度的电脑玩家面前取得胜利。

暴雪娱乐公司(Blizzard Entertainment)于2010年推出的《星际争霸II》是一款实时战略(RTS)游戏,在游戏界引起了极大的关注。标准游戏比赛的参与者有机会参与战略比赛,同时扮演三个不同种族之一的角色:人族(Terran)、虫族(Zerg)和神族(Protoss)。

《星际争霸II》独特的游戏机制和复杂的战略深度使其成为AI发展的强大实验平台,使其成为技术和AI研究领域相当感兴趣的主题。普通玩家通常保持每分钟动作数(APM)100左右,而更高级的玩家则达到200以上。激烈游戏中玩家APM至300-400并不罕见,相当于每秒5~6个命令。最先进的LLM处理中固有的延迟阻碍了它们在竞争性的《星际争霸II》等高度时间敏感的环境中的直接应用,因此需要新方法来调整这些模型,跟上游戏的紧迫性。

如图所示是SwarmBrain和星际争霸II环境之间的相互作用。环境观测通过python-s2API接口获取,该接口将游戏状态信息导入Overmind 智能矩阵和Swarm ReflexNet。由于所获得的游戏状态信息包含全面而复杂的游戏内状态信息,因此“选择性提取”功能仅收集相关数据。随后,这些提取的数据经过一系列数学计算,提取必要的参数。生成的精炼信息随后被封装到自然语言中,作为Overmind 智能矩阵的输入。Overmind智能矩阵基于LLM,处理自然语言数据,为Swarm ReflexNet制定战略指令。Swarm ReflexNet反过来利用这些观测信息为虫族(Zerg)单元执行类似条件反射的基本决策。

添加图片注释,不超过 140 字(可选)

如图所示是Overmind 智能矩阵的总体框架。它被设想为一个复合系统,包括四个不同但相互关联的组成部分:Overmind大脑 、基于文本记忆系统、SC2大脑和命令中心。每个组件都设计有专门的功能,使矩阵能够进行高维度的战略操作。

添加图片注释,不超过 140 字(可选)

以下讨论Swarm ReflexNet的状态机示例,其特征是具有代表性的虫族单位,如无人机(Drone)、霸王( Overlord )和虫灵( Zergling )。

如图所示,当面对不同的场景时,Drone的状态转换。Drone有三种不同的状态: Gather(默认)状态、Attack状态和Flee状态。这些状态在三个特定条件下是可互换的——条件A()、条件G()和条件F()。

添加图片注释,不超过 140 字(可选)

与Drone相比,OverLord的状态转换明显更简单,其实现是《星际争霸II》框架固有的。OverLord的状态机由两个主要状态组成:Idle状态(默认)和Flee状态,这两个状态由两个特定条件控制:条件F()和条件I()。

添加图片注释,不超过 140 字(可选)

对于Zerg的主要进攻单元,如Zergling、Roach、Hydralisk等,Zerg战斗单位的状态转换图有相似之处。Zerling的状态机如图所示。Zerling在三种状态下运行:Idle状态(默认)、Attack状态和Flee状态,转换由三个不同的条件决定:条件A()、条件I()和条件F()。

添加图片注释,不超过 140 字(可选)

  • 12
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值