人工智能咨询培训老师叶梓 转载标明出处
实时战略(RTS)游戏如《星际争霸II》一直被视为测试和提升AI能力的绝佳平台。尽管基于强化学习(RL)的AI代理在《星际争霸II》中取得了显著进展,但它们在处理复杂环境时仍面临挑战。LLMs以其高层次的抽象能力和对复杂情境的理解能力,为AI代理提供了更全面的战场视角,从而可能提高其在复杂场景中的表现和适应性。
最近,来自宝马诚迈公司的研究团队在各种探索性任务中取得了显著成就,甚至超越了传统基于强化学习的方法。本文将探讨LLMs在执行《星际争霸II》游戏中实时战略任务的有效性,并介绍一个名为SwarmBrain的执行实时战略的嵌入式智能体。
SwarmBrain框架

图1框架是理解SwarmBrain如何在实时战略游戏中运作的关键。
环境观察:SwarmBrain通过python-sc2 API接口获取游戏状态信息。这个接口充当了SwarmBrain与游戏环境之间的桥梁,提供了关于游戏内各种单位、建筑和资源的实时数据。
数据提取:从游戏环境中获取的原始数据是复杂且庞大的。SwarmBrain采用选择性提取过程,只提取对决策过程至关重要的数据。这有助于减少处理数据所需的计算资源,并提高决策速度。
数学计算:提取的数据经过一系列数学运算,转化为必要的参数。这些参数为SwarmBrain提供了对游戏状态的定量理解,比如资源数量、单位状态和敌人的位置等。
自然语言输入:将处理后的数据封装成自然语言描述,作为主宰智能矩阵(Overmind Intelligence Matrix)的输入。这种自然语言描述使得大型语言模型(LLM)能够理解和分析游戏状态。
策略制定:主宰智能矩阵基于输入的自然语言数据,制定战略指令。这些指令包括资源分配、扩张方向和攻击协调等。主宰大脑(Overmind Brain)和星际争霸II大脑(SC2 Brain)共同工作,将战略概念转化为可执行的命令。
命令执行:Swarm ReflexNet接收主宰智能矩阵的指令,并将其转化为具体的操作。这些操作包括单位移动、攻击和建筑建造等。Swarm ReflexNet确保这些操作能够快速、准确地执行。
反馈循环:执行的操作结果会反馈到SwarmBrain,形成闭环。这样,SwarmBrain可以根据最新的游戏状态调整其战略和战术,确保持续的适应性和有效性。
实时决