Beyond Outcomes: Transparent Assessment of LLM Reasoning in Games

最新推荐文章于 2025-06-05 22:56:29 发布

三月七꧁ ꧂

最新推荐文章于 2025-06-05 22:56:29 发布

阅读量1.6k

点赞数 17

分类专栏：论文合集--llm复杂推理文章标签：人工智能算法大数据单片机语言模型 gpt llama

本文链接：https://blog.csdn.net/weixin_43961909/article/details/145066353

版权

题目

超越成果：对LLM游戏推理的透明评估

在这里插入图片描述

论文地址：https://arxiv.org/abs/2412.13602
项目地址：https://visual-ai.github.io/gamebot

摘要

大型语言模型 (LLM) 越来越多地部署在需要复杂推理的现实世界应用中。为了跟踪进展，需要强大的基准来评估它们在表面模式识别之外的能力。然而，当前的 LLM 推理基准通常面临诸如可解释性不足、性能饱和或数据污染等挑战。为了应对这些挑战，我们推出了 GAMEBOT，这是一个专为严格透明地评估 LLM 推理能力而设计的游戏竞技场。GAMEBOT 将游戏中的复杂推理分解为预定义的模块化子问题。这种分解使我们能够设计一套思路链 (CoT) 提示，利用领域知识指导 LLM 在选择动作之前解决这些子问题。此外，我们开发了一套基于规则的算法来为这些子问题生成基本事实，从而能够严格验证 LLM 的中间推理步骤。这种方法有助于评估最终行动的质量和底层推理过程的准确性。 GAMEBOT 还通过动态游戏和面对面的 LLM 竞赛自然地减轻了数据污染的风险。我们对 8 款游戏中的 17 个著名 LLM 进行了基准测试，涵盖了各种战略能力和游戏特征。我们的结果表明，即使为 LLM 提供了详细的 CoT 提示，GAMEBOT 仍然具有重大挑战性。项目页面：https://visual-ai.github.io/gamebot

简介

LLM 已在各种任务中展示了卓越的能力，包括翻译、问答和编码（Achiam 等人，2023 年；Reid 等人，2024 年；Anthropic，2024a）。这种蓬勃发展的熟练程度推动了它们的快速发展融入现实世界的人工智能辅助应用，需要有强大的基准来评估它们的推理能力。现有的努力集中在创建超越表面模式识别并深入研究解决问题所需的深刻推理技能的基准。例如，GSM8K（Cobbe 等人，2021 年）和 MATH（Hendrycks 等人，2021 年）针对数学推理，HumanEval（Chen 等人，2021 年）和 MBPP（Austin 等人，2021 年）评估代码生成能力，StrategyQA（Geva 等人，2021 年）专注于多跳推理。

尽管这些既定的基准具有广泛的实用性，但它们面临着两个挑战：性能饱和和数据污染。首先，性能饱和阻碍了区分表现最佳的模型的能力。例如，Qwen2-Math-72B-Instruct 在 GSM8k 上的准确率达到 96.7%，几乎没有进一步改进的空间。其次，这些数据集的静态性质增加了数据污染的风险。由于 LLM 是在大规模网络语料库上进行预训练的，它们可能会无意中遇到并记住这些基准中的测试实例。因此，LLM 可能会获得虚高的绩效分数，从而破坏评估真正推理能力的有效性。

在这里插入图片描述
图 1：GAMEBOT 的整体评估框架。该框架包括三个关键组件：（1）多样化的游戏环境；（2）精心策划的 CoT 提示以引出复杂的推理；（3）用于验证中间结果的基于规则的算法。我们还开发了一个可视化模块来跟踪游戏玩法（参见附录 D）。在比赛期间，选定的游戏环境（左）会动态生成当前游戏状态。然后向两个竞争的 LLM 提供 CoT 提示（右），要求它们在选择动作之前利用人类专家知识来回答所有子问题。基于规则的算法随后生成基本事实并验证 LLM 对这些子问题的响应，从而实现严格的性能评估。

最近，战略游戏已成为一个有价值的试验台，为评估 LLM 提供了更具挑战性和动态性的环境，并具有明确的目标。利用这一范式的现有工作（Liu 等人，2023；Huang 等人，2024；Duan 等人，2024b；Chalamalasetti 等人，2023；Chen 等人，2024；Wu 等人，2023）因此可以利用胜率或游戏得分等指标来评估表现。

然而，一个自然而然的问题出现了：LLM 是否真的理解了游戏逻辑和策略，从而赢得了游戏？例如，LLM 可能会提出荒谬的推理，但会选择正确的行动，从而获得意外的胜利。仅仅依赖游戏结果作为表现度量限制了这些基准的可解释性和稳健性。此外，仅评估最终结果（许多个人决策的顶点）会忽略游戏每个步骤中嵌入的丰富信息。因此，对战略环境中的 LLM 能力进行全面评估不仅需要评估最终结果，还需要评估支撑每个动作的中间推理过程。

在本文中，我们介绍了 GAMEBOT（GAME Battle of Tactics），这是评估竞争性游戏环境中 LLM 的基准（如图 1 所示）。我们开发了一整套工具，包括

多样化的游戏环境；
精心策划的 CoT 提示以引出复杂的推理；
用于验证中间结果的基于规则的算法。

我们还开发了一个用于跟踪游戏玩法的可视化模块。GAMEBOT 将复杂的游戏决策分解为模块化子问题，每个子问题解决与决策过程相关的不同因素。我们不依赖通用的“逐步思考”提示（Wei 等人，2022 年；Kojima 等人，2022 年），而是采用融合领域知识的战略引导 CoT 提示，引出明确的中间推理步骤和最终行动。LLM 需要以“[中间思考结果：XXX]”的格式总结每个子问题的答案。这允许根据编程求解器生成的基本事实进行自动验证，从而实现超越胜负率的细粒度分析。通过这种方式，GAMEBOT 提供了宝贵的可解释性，需要真正理解游戏逻辑和策略，才能让 LLM 取得胜利，从而最大限度地减少偶然结果的影响。

为了全面评估LLM，GAMEBOT 包括 8 款游戏，涵盖四个不同的类别：棋盘游戏（例如，奥赛罗、跳棋、井字棋、四子棋）、动作游戏（例如，乒乓球、环绕声）、纸牌游戏（例如，德州扑克）和博弈论场景（例如，谈判 v2）。这些游戏被选中以针对不同的战略能力，并包含不同的游戏特征：零和与非零和；完美信息与不完美信息；回合制与同时移动。这个多样化的集合要求法学硕士展示广泛的认知能力，包括空间推理、战略协作和竞争、数学方程求解、信息提取、风险管理和模式识别。

我们在 GAMEBOT 中通过 20 场面对面比赛评估了 17 个使用 0 次或 1 次推理设置的著名 LLM（例如 GPT、Claude、Gemini、LLaMA、Mistral），每场比赛每个模型总计 340 场比赛。这确保了有效性和足够的游戏状态曝光。结果表明中间步骤评估对结果评估结果具有高度预测性，支持了我们基准的稳健性和可解释性。

总而言之，GAMEBOT 具有以下优势。可解释性：我们的基准不仅对最终决策的质量进行评估，还对中间推理步骤进行评估，为改进 LLM 的训练或推理提供见解。难度：游戏具有足够的挑战性，可以区分表现最佳的模型。即使对于 GPT-4o，中间结果的得分（范围从 0 到 1）也只有 0.52。减轻数据污染：我们不是在预定义的数据集上进行评估，而是在交互式游戏环境中评估 LLM，在这种环境中，可能的游戏状态根据随机性和收到的特定操作跨越很宽的范围。此外，竞争环境确保了多样化的游戏状态曝光。更强的基线：与以前的方法相比，我们精心策划的提示还可以作为更强大的 CoT 基线（Duan et al, 2024b; Chen et al, 2024; Huang et al, 2024）。本研究中提出的提示可以作为未来研究的宝贵 CoT 基线，探索自动提示（Zhang 等人，2022 年）和反思（Shinn 等人，2024 年）等高级提示技术。

GAMEBOT

GAMEBOT 包含八个经过精心挑选的游戏，涵盖各种战略能力和游戏特征（见表 1），允许在不同的推理维度上评估 LLM，例如空间推理、对手建模、风险管理和协作。LLM 的任务是

理解游戏规则，
释当前游戏状态，
提供有效的动作，以及
找到制胜策略——因此我们的基准需要复杂的推理能力。

超越结果：中间步骤评估为了促进对 LLM 推理的细粒度分析，我们将每个游戏中的复杂决策过程分解为 2-3 个逻辑上必不可少的子问题。每个子问题都针对游戏推理要求的特定方面，并有助于最终的动作选择。LLM 的任务是按顺序解决每个子问题，最终采取最终行动。这确保了中间子问题的解决方案能够指导和约束最终决策。为了便于进行严格的分析和评估，我们要求 LLM 通过结构化格式明确表达其对每个子问题的推理结果：“[中间思考结果：XXX]”。这种结构化输出可以直接提取并与自动生成的地面真相进行定量比较。重要的是，每个子问题都被设计为确定性的，从而允许开发基于规则的地面真相生成算法。

在这里插入图片描述
表 1：用于评估的 8 款游戏。该基准测试结合了 4 种具有不同属性的游戏类型，以广泛覆盖 LLM 推理技能。为了确保较大的状态空间，我们对 Negotiation（Lewis 等人，2017 年）进行了轻微修改（请参阅附录 B 中的详细信息）。尽管 TicTacToe 的状态空间相对较小，但 LLM 仍然难以在这个看似简单的游戏中表现出色（参见第 3.1.2 节）。“Simul.”是同步的缩写。“Info. Extract”是信息提取的缩写。

我们在这里展示了一个子问题设计的示例。请参阅附录 B 了解完整列表。Surround（蛇形）Surround 是一款双人游戏，玩家控制一条连续移动的线。目标是迫使对手与自己的线、墙壁或对方玩家不断增长的线相撞。它强调空间推理和战略阻挡。为了赢得游戏，LLM 应该规划一条安全的路径，并尝试用墙壁包围对手。子问题设计：1.

根据给定的游戏状态，提取 4 个方向上与当前位置相邻的所有值。
根据当前位置周围可用的空白空间列出所有可能的移动操作。
输出有效操作是否将通向一条至少有 10 个连续空单元格的安全路径，以供未来移动。评估能力：信息提取；空间推理；长期路径规划

在这里插入图片描述
图 2：比较仅评估结果（顶部）与评估结果和中间步骤（底部）。仅评估结果（许多个人决策的结果）会忽略游戏每个步骤中嵌入的丰富信息。另一方面，评估结果和中间步骤会利用这些信息，为最终结果提供可解释性。

这种中间步骤评估具有四个主要优势：

更细粒度的评估——现有的用于评估游戏场景中的 LLM 的基准（Wu 等人，2023；Duan 等人，2024b；Chen 等人，2024；Liu 等人，2023）通常仅依赖最终游戏结果（例如，赢或输）作为评估指标。然而，一场游戏可能涉及许多步骤，并受到许多偶然事件的影响。LLM 有可能在比赛的大部分时间里表现出合理的游戏玩法，但最终由于一个关键的失误而输掉比赛。因此，仅依赖最终结果会导致不可靠和不稳定的评估，缺乏稳健性。相比之下，我们的框架通过自动验证 LLM 对子问题的答案来评估每一步的推理质量，从而提供可解释性和对整个游戏过程的更全面的评估（参见图 2 中的差异）。
可解释性——它提供了一种定量评估中间推理准确性的机制，从而提高了 LLM 在游戏中的最终决策的可解释性。
洞察特定的优势和劣势——我们为每个游戏设计的子问题针对特定的认知能力，例如规则理解和遵守战略指令。通过分析 LLM 在每个子问题上的表现，我们可以揭示评估模型在这些目标领域的能力和弱点。
增强战略决策——预定义的子问题有助于战略决策过程。通过明确指导 LLM 在做出最终决定之前解决每个子问题，我们鼓励采用更结构化和基于知识的游戏方法。这提高了 LLM 的整体推理能力，如第 3.2 节中的实验结果所示。

竞争中的评估,我们通过动态游戏环境中的直接竞争来评估 LLM，而不是传统的单智能体评估。即使在 LLM 的预训练期间可能会记住某些游戏状态，动态游戏中固有的指数状态空间也可以有效地减轻这种潜在影响。相比之下，采用固定策略对手的单智能体基准测试通常只探索潜在游戏状态的有限子集，这增加了数据污染的脆弱性。我们的竞争框架让 LLM 与自适应对手对抗，迫使它们在更加多样化和不可预测的游戏状态环境中导航。这为它们的推理能力提供了更强大的测试，并减轻了潜在数据污染的影响。

框架与实施，GAMEBOT 提供了一套用于分析 LLM 推理能力的综合套件。该框架首先使用选定的游戏环境建立游戏状态。然后，两个竞争的 LLM 会收到此状态和相应的相同 CoT 提示，指导它们利用人类知识来回答预定义的子问题并采取行动。LLM 对这些子问题提出的解决方案会根据程序生成的基本事实进行自动评估。在收到 LLM 采取的行动后，如果游戏继续，则会生成新的游戏状态。对于游戏环境开发，我们为 Checkers、Negotiation v2、Othello 和 TicTacToe 实现并彻底测试了我们的新自定义环境。对于 Pong、Surround、Texas Hold’em 和 Connect4，我们利用现有环境 PettingZoo 多智能体框架（Terry et al, 2021）并进行调整以促进评估。虽然 Pong 和 Surround 本质上只提供基于像素的视觉信息，但我们按照 Anand et al (2019) 提取相关表示并将其转换为文本形式，为 LLM 评估维护基于文本的游戏状态表示。

为了验证 LLM 的中间步骤，我们还开发了程序来自动生成每个游戏子问题的基本事实，从而实现严格的评估。GAMEBOT 还包含一个可视化模块，用于跟踪 LLM 之间比赛的游戏历史。这种可视化有助于理解和调试 LLM 推理行为（参见附录 D）。

提示设计为了确保公平评估 LLM 学习和应用游戏策略的能力，我们的提示被设计为独立的，作为游戏的“教程”。每个提示都提供了全面的游戏规则，标准化了输入和输出格式，并教授从人类专家玩家那里获得的游戏特定策略。通过在提示中呈现所有必要的信息，我们旨在评估 LLM 的真正泛化能力 - 它们根据提供的信息学习和推理的能力 - 而不是它们对训练数据中预先存在的知识的依赖。

提示分为三个部分：<游戏规则>、<输入> 和 <输出>。部分指定所需的输出格式，并指导 LLM 应用提示中嵌入的策略来解决给定的子问题。对于提示中针对游戏的策略设计，我们参考了人类专家制作的教程。1 完整的提示集可在附录 F 中找到，这些提示未针对任何特定 LLM 进行优化设计，以保持公平性。

评估指标结果评估结果评估指标为：在这里插入图片描述其中 Rj 表示 LLM 获得的奖励，Tj 表示第 j 场比赛可获得的最大奖励。对于基于胜/平/负的游戏（黑白棋、乒乓球、环绕棋、跳棋，井字棋、四子棋）、并且 Tj = 1。对于基于价值的游戏（德州扑克、谈判 v2），Rj 和 Tj 的值由游戏环境的奖励决定。
中间步骤评估使用 F1 分数或准确度对每个子问题进行中间步骤评估。对于答案分布不平衡的问题，使用 F1 分数，在这种情况下提供更稳健的评估。对于答案分布平衡的问题，使用准确度。有关每个子问题使用的评估指标的详细信息，请参阅附录 C。游戏的中间步骤性能用 I 表示，计算为整个游戏中各个子问题结果的平均值：I = 滑 t It T ，其中 It 是第 t 个子问题的准确度或 F1 分数，T 是子问题的总数。

实验

在本节中，我们详细介绍了在游戏环境中评估 LLM 的实验设置和结果，并对各种 LLM 的性能进行了分析。GAMEBOT 基准测试，评估的 LLM 可以在附录 A 中找到。我们使用每个 LLM 的默认采样参数进行推理。通过使用默认参数，我们确保非确定性输出，从而引入更多多样性。这使我们能够进行重复的 LLM 面对面竞赛，其中模型会接触到新的游戏状态和位置，从而对能力进行更全面的评估。对于每个 LLM，我们将最大输出 token 数参数设置为 4096，以允许足够的 token 用于推理步骤。

在每个游戏环境中，我们在每对模型之间进行 20 场比赛，每个 LLM 作为第一个玩家进行 10 场比赛，作为第二个玩家进行 10 场比赛，以减轻第一个玩家的优势。我们还评估了一个“随机玩家”，它随机选择一个可用的动作作为基线，以便更好地解释结果。

结果与分析，根据最终游戏结果和中间步骤评估每个 LLM 的整体性能（表 2）。这些结果揭示了以下关键观察结果：观察 1：模型大小的影响模型大小明显影响我们具有挑战性、推理密集型基准测试中的性能。在每个系列中，较大的模型始终优于较小的模型。对于像 Reka Flash 和 Jamba-1.5-mini 这样的轻量级模型，它们的性能接近随机水平。令人惊讶的是，GPT-4o 和 GPT-4o mini 之间存在相当大的性能差距。此外，尽管是旧版本，GPT-4 仍然优于 GPT-4o mini，显示出与 Chatbot Arena Leaderboard（Chiang et al, 2024）不同的趋势。所有这些发现都强调了模型规模在我们复杂的推理任务中的重要性。

观察 2：最终结果与中间步骤之间的相关性从整体表现来看，LLM 中中间结果的验证对最终游戏结果表现具有高度预测性。例如，难以产生稳健中间结果的模型（如 Gemini-Pro、Reka Flash 和 Jamba-1.5mini）在最终结果方面也表现不佳。这一发现凸显了中间步骤验证在理解和评估 LLM 性能方面的关键作用。这种验证为 LLM 的决策提供了一个窗口，为其行为背后的“原因”提供了线索，并使最终结果不那么不透明。

然而，仔细检查个别游戏的表现会发现这种总体趋势的一些例外。例如，虽然 Claude 3.5 Sonnet 在 Pong 的中间步骤评估中获得了最高分，但其相应的最终结果得分并不那么令人印象深刻。这表明，虽然准确评估中间状态通常是成功的有力指标，但其他因素也会影响最终结果，可能包括特定于游戏的策略、风险承受能力，甚至某些游戏中的机会因素。我们将在下一节中研究这种现象。

观察 3：游戏之间的不一致性许多模型在不同游戏中表现出不稳定的性能。例如，LLaMA3.1-70b 在 Tic 中取得了最高的最终成绩TacToe 在 Pong 和 Connect4 中表现出人意料地相对较好，但在德州扑克中，它的表现低于平均水平。这些性能波动凸显了开发能够在不同场景中做出稳健和一致决策的 LLM 的挑战，这可能表明它们在迁移知识和适应新游戏规则方面的能力有限。

观察 4：GPT-4o 和 Claude 3.5 Sonnet 的优势 GPT-4o 和 Claude 3.5 Sonnet 都在两个评估指标中表现出始终如一的强劲表现，获得了最高的平均分数。这表明这些模型具有更好的泛化能力。

观察 5：具有挑战性的基准表 2 显示，所有评估模型的平均 I 分数仍然相对较低，其中最好的模型的平均分数（范围从 0 到 1）仅为 0.52。附录 C 的结果还显示，所有测试的 LLM 在一些复杂的推理子问题上都几乎完全失败。这些凸显了 LLM 在这些游戏中的复杂推理任务中面临的困难。

对结果的调查，我们进一步调查了一些意外表现背后的根本原因。 Claude 3.5 Sonnet 在 Pong 上的表现如前所述，Claude 3.5 Sonnet 在 Pong 中的强劲中期表现并不意味着同样高的最终结果得分。手动查看视频和日志文件揭示了原因：虽然模型准确地预测了球的位置并相应地放置了球拍，但它严格遵守将球拍置于球的中心。此行为忽略了使用球拍角进行拦截的指令。游戏的跳帧机制有时会使精确居中变得不可能，导致球拍在目标附近振荡并偶尔错过球。

LLaMA3.1-70b 在德州扑克中的表现虽然表 2 显示 LLaMA3.170b 在德州扑克中的表现基于最终游戏结果，但仔细检查中间结果表明它的推理能力比结果表现可能暗示的要强。我们观察到，游戏的高风险性质导致了这种差异。具体来说，当 LLaMA3.1-70b 错误分类其手牌强度（例如识别两对为满堂红），它倾向于高估获胜的机会，导致激进的下注，最终完全输掉那手牌的筹码。这种在误判时过度自信的倾向会严重影响其整体表现。

这些发现强调了在评估 LLM 表现时评估中间步骤和最终结果的重要性。虽然最终分数提供了一个易于量化的成功衡量标准，但它们有时会掩盖潜在的推理过程并掩盖 LLM 策略的优势或劣势，正如 Pong 和 Texas Hold’em 示例中清楚显示的那样。我们引入了中间评估，提供了一个关键的视角，揭示了 LLM 的能力与其最终表现之间原本隐藏的差异。这种细粒度的分析使我们能够更细致地了解 LLM 行为，使我们能够确定需要改进的具体领域。

在这里插入图片描述
表 2：基准测试结果。结果显示，结果评估与中间步骤评估之间存在高度相关性。由于 LLM 的最终操作由子问题的答案决定，因此相关性表明中间步骤评估为结果提供了可解释性。“O”：基于结果的评估，范围从 -1 到 1。“I”：中间步骤评估，范围从 0 到 1。对于 Checkers 列，标有“-”的模型很少产生有效的移动。为了简化平均分数的计算，这些情况被视为相当于 -0.5 的分数。每个结果代表与所有其他模型进行 20 场正面交锋的平均分数。“随机”表示通过在每个步骤随机选择操作实现的性能。

更强的基线，这项工作为 LLM 提出了一种新颖的评估基准。作为副产品，我们精心设计的融入游戏知识的提示可以作为更强大的 CoT 基线。表 3 将我们精心挑选的提示与仅限动作和通用提示的实验结果进行了比较。仅操作提示，指示 LLM 仅输出操作（用于 LLMArena（Chen et al, 2024）和 GAMABench（Huang et al, 2024））和通用思维链 (CoT) 提示，如“一步一步思考”（用于 GTBench（Duan 等人，2024b）），不足以引出有意义的战略推理（Duan 等人，2024a）。相反，我们的 CoT 提示整合了领域游戏知识和分步战略指导，为未来 LLM 战略推理研究奠定了坚实的基础。图 3 显示了实际案例。请注意，我们的 CoT 提示是独立于任何特定模型开发的，以确保评估的公平性。通过针对模型定制的提示设计，可以实现对特定模型的进一步改进。

在这里插入图片描述

表 3：我们精心挑选的提示与仅操作提示和通用提示之间的性能比较。配备我们精心挑选的 CoT 提示的 LLM 表现优于仅操作和通用提示。我们对配备不同提示的同一模型进行了 20 场面对面的比赛。结果格式为 W-D-L，分别代表我们方法的胜利、平局和失败。

LLM 推理的相关工作基准

旨在评估核心推理的各种基准LLM 的能力已经得到开发。示例包括用于数学推理的 GSM8K (Cobbe 等人，2021) 和 Math (Hendrycks 等人，2021)，用于代码生成的 HumanEval (Chen 等人，2021) 和 MBPP (Austin 等人，2021)，用于多跳推理的 StrategyQA (Geva 等人，2021) 以及用于地理空间推理的 Roberts 等人 (2023、2024)。

游戏中 LLM 的多智能体评估认识到单智能体基准 (Wu 等人，2023) 在评估 LLM 的真实能力方面的局限性，研究人员已转向多智能体场景，特别是在战略游戏的背景下。现有的努力，例如 GTBench（Duan 等人，2024b）、LLMArena（Chen 等人，2024）和 GamaBench（Huang 等人，2024）利用扑克、Hanabi 等游戏和其他博弈论任务来评估多智能体交互中的 LLM。然而，这些基准主要侧重于根据游戏结果（例如胜率）评估性能，而不考虑内部思维链的正确性。相反，我们的方法通过评估中间结果来提供模型性能的更多可解释性。我们将复杂的游戏推理分解为预定义的模块化子问题。我们不依赖通用的“逐步思考”提示，而是采用注入领域知识的详细、战略指导的 CoT 提示。这会在选择动作之前引导 LLM 完成每个子问题。此外，我们开发了一套基于规则的算法来为这些子问题生成基本事实，从而能够严格验证 LLM 的中间推理步骤。这为评估提供了至关重要的可解释性。

在这里插入图片描述
图 3：LLaMA3.1-70b 的真实 TicTacToe 游戏，使用通用提示（左）和我们精心挑选的提示（右）。
基本提示导致模型在 (0,2) 处做出错误举动，声称“这不会让 X 立即获得获胜机会”，而事实上，X 的获胜举动在 (2,2) 处可用。相比之下，使用我们精炼的提示，模型正确地将 (2,2) 识别为 X 和 O 的获胜举动，最终赢得了这场比赛。

结论

我们引入了 GAMEBOT，这是一种用于评估 LLM 在竞技游戏中的能力的新基准，包括 8 种不同的游戏，涵盖了广泛的游戏类型、特征和策略。为了取得成功，LLM 必须能够

理解每场游戏的规则，
解释每轮游戏的状态，
提供有效的动作，以及
找到获胜策略——因此我们的基准需要复杂的推理能力。

GAMEBOT 的一个关键特性是将游戏分解为 2-3 个针对特定能力的子问题。除了增强 LLM 的决策能力外，这还可以对推理优势和劣势进行细粒度的评估。我们在 GAMEBOT 上评估了 17 个前沿 LLM，发现模型性能存在明显差异，这表明我们的基准具有足够的挑战性来区分最强模型的能力。

总体而言，表现最好的模型是闭源的，GPT-4o 得分最高。我们精心设计的 CoT 提示引入了领域专业知识，并被证明是比以前的方法更强大的基线。我们将不断更新新发布模型的基准。我们希望我们的基准和总体发现有助于指导战略推理这一重要领域的研究。

局限性

本研究有几个局限性。首先，它依赖于人工制作的提示模板。众所周知，LLM 性能对提示措辞很敏感，提示设计的变化可能会导致结果变化。其次，为了促进有效评估，我们选择了轻量级、计算成本低的游戏。未来研究的一个有价值的方向是研究更接近真实世界应用程序复杂性的游戏的性能。最后，当前 LLM 的有限输入和输出标记长度（例如 4096 个标记）限制了我们可以为每个游戏包含的子问题的数量。通常，在这些限制内只有两到三个子问题是可行的。随着 LLM 的发展及其上下文窗口的扩大，后续研究可以纳入更多子问题以进行更全面的评估。

附录

A 评估的 LLM

我们对 17 个著名的 LLM 进行了基准测试。在可能的情况下，我们专注于聊天或指令调整的变体，因为它们通常具有更强的指令遵循能力。我们的评估包括以下 LLM：闭源：GPT-4（Achiam 等人，2023 年）、GPT-4o（OpenAI，2024b）、GPT-4o mini（OpenAI，2024a）、Gemini 1.5 Pro、Gemini 1.5 Flash（Reid 等人，2024 年）、Gemini-Pro（Gemini Team 等人，2023 年）、Claude 3 Haiku、Claude 3 Sonnet（Anthropic，2024a）、Claude 3.5 Sonnet（Anthropic，2024b）、Reka Core 和 Reka Flash（Ormazabal 等人，2024 年）。

开源：LLaMA 3.1（8B、70B、405B）（Dubey 等人，2024 年）、Jamba 1.5（大型、迷你）（Team 等人，2024 年）和 Mistral Nemo（AI，2024a）。

本研究中的所有推理都是使用 API 服务进行的。具体来说，我们对 Gemini、Claude、Mistral、Jamba 和 LLaMA 3.1 系列中的模型使用了 Vertex AI API（Google，2024 年），对 Reka Core 和 Flash 使用了 Reka API（AI，2024b），对 GPT 模型使用了 Azure OpenAI 服务（Microsoft，2024 年）。以下是通过 API 访问的模型的具体版本列表：

Gemini-Pro：gemini-1.0-pro-002
Gemini 1.5 Flash：gemini-1.5-flash-preview-0514
Gemini 1.5 Pro：gemini-1.5-pro-preview-0514
GPT-4：gpt-4-1106
GPT-4o mini：gpt-4o-mini-2024-07-18
GPT-4o：gpt-4o-2024-05-13
Reka Flash：reka-flash-20240904
Reka Core：reka-core-20240415
Claude 3 Haiku：claude-3-haiku@20240307
Claude 3 Sonnet：claude-3-sonnet@20240229
Claude 3.5 Sonnet：claude-3-5-sonnet@20240620
Jamba 1.5 Large：jamba-1.5-large
Jamba 1.5 Mini：jamba-1.5-mini
Mistral Nemo：mistral-nemo-2407
LLaMA 3.1 {8,70,405b}：meta/LLaMA3-{8,7,405}b-instruct-maas

B 游戏选择和子问题设计

所选游戏在概念上简单易懂，便于人类理解，方便 LLM 开发人员使用 GAMEBOT。然而，必须注意的是，尽管规则简单，但这些游戏对 LLM 来说却是一场不小的挑战（参见附录 C）。控制难度级别对于有效评估至关重要，因为过于复杂的游戏会导致所有模型无效，而过于简单的游戏则无法区分性能。此外，黑白棋、跳棋和德州扑克等几种游戏即使对于人类玩家来说也具有相当大的战略深度。

黑白棋 (Reversi) 黑白棋是一种在 8x8 棋盘上进行的棋盘游戏。两名玩家轮流放置自己颜色的棋子，试图通过夹在自己的棋子之间来包抄并吃掉对手的棋子。被吃掉的棋子将被翻转为玩家的颜色。为了获胜，LLM 应该采取战略性举措，以确保游戏结束时大多数棋子都显示玩家的颜色。游戏强调战略布局和战术机动来控制棋盘。

子问题设计：1. 输出您是否可以直接占据角落。2. 黑白棋中的“楔入”是指玩家可以将棋子放置在对手边缘的两个稳定棋子之间，…，输出可以创建楔入的所有坐标。

评估能力：空间推理；位置评估 Pong Pong 是一款模拟乒乓球的经典双人街机游戏。玩家控制桨来回击球，目的是通过让对手失误来得分。它代表了一个具有连续动作空间的简化环境。为了赢得比赛，LLM 应该预测球的轨迹并拦截它，然后给对手制造一个困难的角度。

子问题设计：1. 输出球的移动方向。2. 当球的 x 坐标与桨的 x 坐标相同时，输出球的 y 坐标。

评估能力：数学推理环绕（蛇）环绕是一个双人游戏，玩家控制一条连续移动的线。
目标是迫使对手与自己的线、墙壁或对方玩家不断增长的线相撞。它强调空间推理和战略阻挡。为了赢得比赛，LLM 应该规划一条安全的路径，并尝试用墙壁包围对手。

子问题设计： 1. 根据给定的游戏状态，提取当前位置 4 个方向上相邻的所有值。 2. 根据当前位置周围可用的空白区域，列出所有可能的移动操作。 3. 输出有效操作是否会通向一条至少有 10 个连续空白单元格的安全路径，以供未来移动。

评估能力：信息提取；空间推理；长期路径规划跳棋（国际跳棋）跳棋是一种棋盘游戏，玩家沿对角线移动棋子，跳过对手的棋子来捕获它们。普通棋子只能向前移动，而通过到达对手后排获得的“王”可以向前和向后移动和捕获。当一个玩家捕获了对手的所有棋子或阻挡了对手的棋子时，游戏结束。它涉及战略规划和战术棋子推进。要赢得游戏，LLM 应该全面考虑提示中列出的所有因素。

子问题设计： 1. 输出所有给你新王棋子的移动。 2. 输出所有导致骰子一文不值的坏动作。

评估能力：空间推理；游戏板理解井字游戏（井字游戏）井字游戏是一种在 3x3 网格上进行的简单的双人游戏。

玩家轮流用各自的符号标记一个方格，目的是水平、垂直或对角线地形成一条由三个符号组成的线。为了赢得比赛，LLM 应该尝试创造将 3 个符号排成一行的机会，同时阻挡对手。它的简单性使其成为对 LLM 的轻量级评估。尽管如此，我们发现它对 LLM 来说仍然具有挑战性。

子问题设计：1. 是否有任何潜在的获胜动作可以让你形成连续的 3 个？2. 是否有任何潜在的获胜动作可以让你的对手形成连续的 3 个？

评估能力：模式识别；游戏板理解四子棋四子棋是一种在垂直悬挂的 6x7 网格上进行的双人游戏。玩家将彩色圆盘放入列中，目标是水平、垂直或对角线连接四个自己的圆盘。为了赢得比赛，LLM 应该尝试创造将 4 个圆盘连成一线的机会，同时阻止对手。这涉及战略思维和预测对手的动作。

子问题设计：1. 是否有任何潜在的获胜动作可以让你形成 4 个连成一线？2. 是否有任何潜在的获胜动作可以让你对手形成 4 个连成一线？评估能力：模式识别；游戏板理解

德州扑克德州扑克是一种流行的扑克游戏，涉及下注、虚张声势和不完整信息。玩家收到两张私人牌并共享五张公共牌，形成最好的五张牌手牌。整个手牌过程中会出现多轮下注，允许玩家根据手牌强度和对对手手牌的评估进行策略性下注。摊牌时拥有最佳手牌的玩家或所有其他玩家都弃牌后剩下的最后一位玩家赢得底池。要赢得这场比赛，LLM 应该评估获胜的概率，并进行相应的下注。它呈现了一个具有挑战性的环境，信息不完整，战略考虑复杂。

子问题设计：1. 给定私人手牌的获胜概率为…，判断哪个是您的私人手牌并输出相应的获胜概率。2. 在翻牌、转牌和河牌轮次，首先分析您最好的五张牌手牌并根据游戏规则输出您的手牌排名。

评估能力：风险管理；虚张声势；手牌分析谈判 v2 谈判 (Lewis 等人，2017) 是一款两名玩家通过谈判分配一组物品的游戏，每名玩家对每件物品都有私人估价。为了确保游戏状态多样化和战略互动更加丰富，我们修改了标准设置，将每名玩家的物品总价值增加到 30。

玩家通过谈判来最大化他们个人获得的总价值。此外，我们引入了一个动态设置：经过 8 轮谈判后，游戏在随后的每一轮中都有 20% 的机会结束。如果在游戏强制终止之前未达成协议，则两名玩家都将获得 0 的奖励。这种修改激励玩家考虑个人收益和合作结果。为了赢得比赛，LLM 应该能够评估对手的提议，并提出有利的提议或在必要时进行合作。谈判游戏探索资源分配中的合作、竞争和公平概念。

子问题设计：1. 根据前几轮谈判，评估对手的最新提案并计算物品总价值并输出结果。2. 对于自己的有效提案，输出物品总价值。

评估能力：竞争协作；对手建模；数学推理

C 中间步骤评估的详细结果
在这里插入图片描述
表 4：LLM 在中间结果验证中的表现。该表显示了每个 LLM 在每场游戏中特定子问题（分别表示为 P-f1 和 P-acc）上的 F1 分数和准确率。子问题设计见附录 B。值得注意的是，在某些复杂的推理子问题上，例如 Othello 子问题 2、Checkers 子问题 2 和 Connect4 子问题 2，其性能极差（接近 0）。

本节介绍每个子问题的完整结果。研究结果表明，所有经过测试的 LLM 在一些复杂的推理任务上都几乎完全失败。以 Othello 游戏为代表。在第一个中等复杂度的子问题中，当其中一个是有效移动时，需要 LLM 识别角的坐标，GPT-4o 和 LLaMA3.1-405b 表现出相对合理的结果。然而，所有 LLM 几乎完全无法完成第二个更复杂的子问题复杂的推理任务。这个子问题涉及确定“玩家何时可以将棋子放在对手边缘的两个稳定棋子之间”。成功执行此任务需要 LLM：

准确识别哪些棋子位于边缘，
区分这些棋子属于对手，
识别这些棋子是稳定的，这意味着它们不能被翻转，
识别这两个对手棋子之间的空隙，
确定这个空隙构成有效的移动。无法解决这个多跳推理任务导致第二个子问题上所有测试模型都失败。

D 可视化

我们开发了一个可视化模块来跟踪图 4 所示的游戏玩法。对于在这些基于文本的游戏环境中研究 LLM 推理的 LLM 开发人员，它将复杂的文本游戏日志转换为易于理解的动画，简化流程并更清楚地展示 LLM 的决策动态。
在这里插入图片描述
图 4：游戏动画的截图。

E LLM 输出示例

我们在此提供一个示例供参考。可以在补充材料中找到所有游戏的更多输出。

Gemini 1.5 pro 与德州扑克中的 GPT-4o 当前游戏状态为 GPT-4o：[红心 Q，梅花 A] 全押； Gemini 1.5 pro：[黑桃 Q，梅花 4] ？ 
Gemini 1.5 pro 的输出 
1. **战略分析** 我的手牌 [黑桃 Q，梅花 4] 在德州扑克中不是一手强起手牌。 根据给出的表格，Q4o 的获胜概率为 47.7%，属于中等范围。 
考虑到我的对手在翻牌前全押，这表明这是一手非常强的手牌。 
2. **结论** 考虑到对手可能拿到的手牌强度和我平庸的起手牌，我输掉所有筹码的风险太高了。 弃牌是最合乎逻辑的决定。 
3. **选择的动作** 弃牌

F 完整提示

F.1 黑白棋黑白棋提示

您是黑白棋游戏的专家。游戏的目标是在游戏结束时让大多数棋子显示您的颜色。
**游戏规则** 
4. 黑白棋在 8x8 棋盘上进行，列标记为 A-H，行标记为 1-8。
5. 黑棋：“B”；白棋：“W”。
6. 初始棋盘在 (D,4) 和 (E,5) 处有黑棋，在 (D,5) 和 (E,4) 处有白棋。
7. 一步棋包括“包抄”对手的棋子，然后将包抄的棋子翻转成您的颜色。包抄意味着在棋盘上放置一个棋子，使对手的一行（或多行）棋子两端都与您的颜色棋子接壤。 （一行可以由一个或多个棋子组成）。
8. 可能会发生这样的情况：下棋时，对手在多个方向上的棋子会被困在你新下出的棋子和你的其他棋子之间。在这种情况下，所有可行方向上的棋子都会翻转为你的颜色。
9. 如果你没有合法的走子，你的回合将被放弃，你的对手将再次走子。
10. 当两个玩家都没有合法的走子（即至少吃掉一个对手棋子的走子）或棋盘已满时，游戏结束。
**输入** 你将收到一个表示当前游戏板的状态矩阵：* 空格：O * 黑棋：B * 白棋：W 你还将获得所有当前合法的走子。你应该根据你的战略分析选择最佳走子。
**输出** 提供你选择的走子。在做出决定之前，阐明你的内部思考过程。你的表现将根据中间思考结果和最终决定进行评估。遵循思考过程： 

11. **战略分析** 评估每一步合法的走法，考虑以下因素： (a) 角控：尽量占据棋盘的四个角很重要，因为角棋不能翻转。输出您是否有走法直接占据角。格式为“[中间思考结果 1：对/错]”。获得对角的控制可以提供稳定的立足点，并影响棋盘上的整体位置。您应该小心占据紧邻角落的位置，因为它可能很容易失去对角落的控制。
(b) 边缘控制：棋盘的边缘不如角落强大，但仍提供许多防御优势。
(c) 棋子稳定性：最好将棋子放置在稳定的位置，以避免被轻易翻转。稳定的棋子可以作为进一步扩展的基础。
(d