智谱：LLM规则推理基准LOGICGAME_logicgame: benchmarking rule-based reasoning abili-CSDN博客

本文链接：https://blog.csdn.net/weixin_46739757/article/details/141960381

在这里插入图片描述

📖标题：LOGICGAME: Benchmarking Rule-Based Reasoning Abilities of Large Language Models
🌐来源：arXiv, 2408.15778

摘要

🔸大语言模型 (LLM) 在各种任务中展示了显着的能力，展示了复杂的解决问题能力。理解和执行复杂的规则，以及多步规划，是逻辑推理的基础，对于实际的LLM代理和决策系统至关重要。然而，将LLM评估为有效的基于规则的执行器和规划者仍未得到充分探索。
🔸在本文中，我们介绍了LOGICGAME，这是一个新的基准，旨在评估llm的全面规则理解、执行和规划能力。与传统的基准不同，LOGICGAME 提供了不同的游戏，其中包含一系列初始状态的规则，要求模型理解和应用预定义的法规来解决问题。我们创建了模拟场景，其中模型执行或计划操作以实现特定结果。这些游戏场景是专门为仅依靠预定义的规则来区分逻辑推理和仅仅知识而设计的。这种分离允许对基于规则的推理能力进行纯评估。评估不仅考虑了最终结果，还考虑了中间步骤，提供了对模型性能的全面评估。此外，这些中间步骤是确定性的，并且可以自动验证。LOGICGAME 定义了具有不同难度级别的游戏场景，从简单的规则应用程序到复杂的推理链，以便在规则理解和多步执行上提供模型性能的精确评估。利用LOGICGAME，我们测试了各种llm，并确定了基于规则的逻辑推理能力的显著缺点。

🛎️文章简介

🔸研究问题：大语言模型（LLM）在遵循人类指令的同时，进行基于规则的推理能力尚未得到充分探索。
🔸主要贡献：论文提出了一个名为LOGICGAME的基准，用于评估LLM的基于规则的推理能力，并设计了系统的数据集构建方法和评估协议。

📝重点思路

🔺相关工作

🔸推理能力：研究表明，随着模型规模的增加，模型的推理能力就会出现，通过思维链提示和专门训练等技术，可以更有效激发推理能力。
🔸评估基准：早期研究集中在逻辑推理，包括归纳推理、演绎推理和溯因推理，近期研究关注需要计算能力的数学推理和需要知识的常识推理。
🔸指令遵循：LLM经历的广泛的对齐，重点在于遵循人类指令，但相关的推理未得到充分探索。

🔺论文方案

🔸数据构建：四个关键阶段，①收集并设计基于规则的问题 ②制定输出约束以标准化评估 ③根据规则复杂性和推理步骤数，设计四个难度级别和示例规范 ④构建双语基准
🔸模型评估：设计了三种评估指标，包括答案准确性（A-Acc）、过程准确性（P-Acc）和答案过程准确性（AP-Acc），以全面评估模型的表现。
🔸实验设置：评估了11种流行的大型语言模型，包括闭源和开源模型，并进行了详细的实验分析。

🔎分析总结

🔸模型在不同难度级别的任务上表现不一致，有些模型在从Level 0到Level 3的任务中表现出更平缓的性能下降，而其他模型则在Level 1后急剧下降。
🔸模型在执行和规划任务中的性能各不相同，claude-3.5执行好于规划，llama-3规划好于执行。
🔸尽管某些模型偶尔未能遵守JSON格式输出的要求，但总体错误率较低，不同模型之间的排名差异不大。