25年2月来自西湖大学、浙江师范大学和海南大学的论文“Logical Reasoning in Large Language Models: A Survey”。
随着 OpenAI o3 和 DeepSeek-R1 等高级推理模型的出现,大语言模型 (LLM) 已展示出卓越的推理能力。然而,它们进行严格逻辑推理的能力仍是一个悬而未决的问题。本综述综合人工智能研究的关键领域 LLM 中逻辑推理的最新进展。它概述 LLM 中逻辑推理的范围、其理论基础以及用于评估推理能力的基准。分析不同推理范式(演绎、归纳、溯因和类比)的现有能力,并评估增强推理性能的策略,包括以数据中心为中心调整、强化学习、解码策略和神经符号方法。本综述最后提出未来的方向,强调需要进一步探索以加强人工智能系统的逻辑推理。
逻辑推理是人工智能 (AI) 和自然语言处理 (NLP) 面临的一项根本性挑战 [Newell and Simon, 1956; McCarthy and Hayes, 1981; McCarthy, 1959]。早期基于形式逻辑的推理方法在可扩展性和适应性方面受到限制 [Pereira, 1982; Cann, 1993],但自 20 世纪 80 年代以来,数据驱动模型成为主导方法 [McCarthy, 1989]。最近,预训练的大型语言模型 (LLM) 及其新兴的逻辑推理能力引起了越来越多的关注 [Liu et al., 2023b; Xu et al., 2023]。逻辑推理将 LLM 与推理结构相结合,实现多步推理和抽象,并提高可解释性和可靠性 [Shi et al., 2021; Stacey 等人,2022 年;Rajaraman 等人,2023 年]。它还增强了泛化能力,帮助模型处理训练数据之外的新场景 [Haruta 等人,2020 年]。随着 LLM 成为法律分析和科学发现等领域不可或缺的一部分,确保其推理的正确性和可验证性变得越来越重要。因此,训练后的 LLM 用于推理引起了业界和研究界的极大兴趣 [OpenAI,2024 年;DeepSeek-AI,2025 年;Muennighoff 等人,2025 年]。
尽管逻辑推理的研究越来越多,但现有的调查 [Plaat,2024;Sun,2023; Yu,2024] 经常将它与思维链 (CoT) 等通用启发式策略混为一谈 [Xia,2024]。缺乏专门针对 LLM 和形式符号逻辑的文献综述。本综述全面回顾大语言模型 (LLM) 中的逻辑推理,重点关注基于形式和符号逻辑的推理,而不是一般的启发式方法。首先定义人工智能中的逻辑推理,将其与通用推理区分开来,并对关键范式进行分类,包括演绎、归纳、溯因和类比推理。此外,还分析现有的基准和评估方法,找出评估符号推理、一致性和稳健性的差距。进一步探索增强逻辑推理的技术,例如指令微调、逻辑信息预训练、强化学习、推理-时间解码策略和混合神经符号方法。本文研究神经符号集成的最新进展,以及定理证明器、逻辑求解器和形式验证框架在 LLM 中的应用。最后,重点介绍规模化、推理一致性、可解释性和效率方面的开放挑战,并提出多模态推理、混合架构和改进评估框架的未来方向。综述结构如图所示:
逻辑推理是人工智能 (AI) 的基石,使机器能够模拟人类的思维过程并解决复杂问题。逻辑推理的核心是应用结构化规则从前提中得出结论,为决策和推理提供严格的框架 [Sun,2023]。
逻辑推理研究的历史
逻辑推理可以追溯到古希腊,亚里士多德的三段论(syllogisms)为古典逻辑奠定基础。在中世纪,学者们完善这些理论,在 17 世纪,Leibniz 的通用语言和演算推理器将逻辑与数学联系起来,预现代计算逻辑。19 世纪,George Boole 的布尔代数将逻辑转化为数学框架,为数字计算奠定基础。
20 世纪开启现代逻辑,Russell & Whitehead 的《数学原理》将复杂的逻辑系统形式化。到本世纪中叶,John McCarthy 等人工智能先驱利用逻辑进行知识表示和自动定理证明,从而产生了逻辑编程和知识库。20 世纪 70 年代引入非单调逻辑,使人工智能能够处理常识推理。20 世纪 80 年代,逻辑推理与知识表示相结合,推动专家系统在现实世界中的应用。20 世纪 90 年代,知识图谱兴起,为复杂的推理任务构建大量知识。
在 21 世纪,神经符号方法将深度学习与逻辑推理相结合,产生了 DeepLogic [Cingillioglu and Russo,2019] 和 SAT-Net [Wang et al.,2019] 等工具。逻辑推理仍然是人工智能研究的基石,从哲学发展到现代计算。随着人工智能的发展,逻辑推理继续塑造智能系统,确保结构化、可解释和稳健的决策。
逻辑推理的类型
逻辑推理可以大致分为四种主要类型,每种类型都有不同的目的和应用:
演绎推理。这种推理从一般原则或前提中得出具体结论。它遵循这样的规则:如果所有前提都是真实的,推理是有效的,那么结论也必须是真实的。例如,给定前提“所有苹果都是红色的”和“这个水果是苹果”,可以推断出“这个水果是红色的”。演绎推理是数学和形式逻辑等领域的基础,在这些领域中,确定性和严谨性至关重要。
归纳推理。与演绎推理不同,归纳推理根据特定的观察或证据得出一般结论。虽然结论通常被认为是可能的,但它们并不能保证是正确的。例如,观察到到目前为止看到的所有天鹅都是白色的,可能会得出“所有天鹅都是白色的”这样的归纳结论。归纳推理广泛应用于科学发现和数据驱动的决策,其中模式和趋势是从经验数据推断出来的。
溯因推理。这种推理形式寻求对一组观察结果的最合理的解释或原因,通常是在信息不完整的情况下。溯因推理在诊断任务和现实世界的问题解决中特别有用。例如,看到街上的湿点可能会让人推断“最近下过雨”。虽然溯因结论不确定,但它们为假设生成和不确定情况下的决策提供实际基础。
类比推理。类比推理涉及在类似情况或领域之间进行比较以进行推断或解决问题。通过识别不同场景之间的相似之处,这种推理可以实现创造性的问题解决和知识迁移。例如,了解行星以椭圆轨道绕太阳运行可能会使人们类比地推断其他天体(如彗星)也表现出类似的轨道特征。类比推理在教育、设计和创新等领域尤其有价值。
逻辑推理数据集和基准,对于评估大语言模型 (LLM) 的推理能力至关重要。这些数据集可以根据其数据来源分为三类:
基于规则的数据集 [Tafjord,2021;Sinha,2019] 使用逻辑规则自动生成,从而实现大规模数据收集。然而,确保多样性对于避免重复模式和全面评估推理能力至关重要。
专家设计的数据集 [Han,2024a] 由域专家构建,确保高精度和准确性。虽然通常比众包语料库小,但它们的精心设计使它们对于深入的逻辑推理评估不可或缺。
基于考试的数据集 [Liu,2021b;Yu,2020; Wang,2022] 源自标准化考试题目(例如中国国家公务员考试、LSAT、GRE),提供高质量、专家精心设计的大规模逻辑问题。这些数据集广泛用于评估现实世界场景中的推理能力。
下表是各种数据集:
自然语言推理 (NLI) 评估假设是否符合前提的逻辑,直接评估模型的推理能力。标签通常分为二元(蕴涵、非蕴涵)或三元(蕴涵、矛盾、中性)分类。一些数据集使用 True 和 False 标签。
机器阅读理解 (MRC) 通过要求模型根据给定的段落回答问题来评估逻辑推理。任务通常采用多项选择题、问题跨度提取或自由回答的形式,其中多项选择题问答由于其标准化而特别有效。
基准套件标准化评估并促进逻辑推理研究中的模型比较。
预训练语言模型 (PLM) 的快速发展,需要对其逻辑推理能力进行严格评估。以下分析四种推理范式——演绎、归纳、溯因和类比,同时分析评估方法和指标。
演绎推理
演绎推理是从一般前提得出具体结论,对于自动定理证明至关重要。尽管 LLM 在组合证明、标准基准和编码蕴涵关系等任务上表现良好,但它们在扩展推理、没有例子的假设子证明、概括和对句法变化的敏感性方面却举步维艰 [Saparov,2023;Yuan,2023;Ryb,2022]。
归纳推理
归纳推理从具体实例推广到更广泛的规则,对于假设生成和模式识别等任务至关重要。虽然 Yang [2024b] 发现预训练模型可以作为有效的“推理器”,但 Bowen [2024b] 发现预训练模型可以作为有效的“推理器”。 [2024] 表明,即使是高级 LLM 在其符号设置中也难以完成简单的归纳任务。同样,Sullivan [2024] 表明,即使经过微调,Transformer 模型也无法学习基本的逻辑原理,这表明归纳推理能力有限。
溯因推理
溯因推理寻求对观察现象最合理的解释,在法律和医学等领域至关重要。Del & Fishel [2023] 强调 LLM 在从不完整信息中生成合理假设时面临的挑战。在法律领域,Nguye [2023] 表明,尽管模型性能强劲,但模型在溯因推理方面仍举步维艰,凸显这一范式的复杂性。
类比推理
类比推理将未知信息与已知信息进行比较来推断未知信息,对于需要创造力和知识迁移的任务至关重要。Wijesiriwardene [2023] 引入 ANALOGICAL,这是长文本类比推理的基准。他们发现,随着类比复杂性的增加,LLM 难以识别类比对。Petersen & van der Plas [2023] 表明,模型可以用最少的数据学习类比推理,接近人类的表现。然而,Qi [2024] 质疑 LLM 是否真正依赖类比推理,发现提示中的随机示例通常可以实现与相关示例相当的性能。
总体分析和指标
Liu [2023b] 在 LogiQA 和 ReClor 等基准上评估 GPT-4 和 ChatGPT,结果表明,虽然 GPT-4 的表现优于 ChatGPT,但它们在处理分布外任务时都存在困难。Xu [2023] 介绍 NeuLR 数据集,并提出一个从六个维度评估 LLM 的框架:正确性、严谨性、自我意识、主动性、指导性和无幻觉。
评估逻辑推理的指标。准确度和 F1 分数等传统指标不足以评估逻辑推理。最近的研究引入细微的指标,例如一致性(对逻辑等效输入的不变性)、泛化(在分布外数据上的表现)和可解释性(推理步骤的清晰度)。Thatikonda [2025] 发现将 BERTScore 与传统指标相结合可以提高与人类判断的一致性。Liu [2024c] 提出一个衡量逻辑一致性的框架,表明 BERTScore 与人类排名的一致性比基于 LLM 的评估器(如 GPT-4)更高。Gandarela [2024] 强调需要制定能够反映逻辑理论表达能力的指标,特别是在归纳推理中。
增强 LLM 的逻辑推理能力仍然至关重要。一些核心策略有:以数据为中心的方法、以模型为中心的方法、外部知识利用和神经符号推理。
以数据为中心的方法
以数据为中心的方法通过利用策划的训练数据集来增强 LLM 的推理能力。
在以数据为中心的方法中,数据集优化起了核心作用。在实践中,以数据为中心的方法通常涉及三种类型的数据集:专家精选的数据集、合成数据集和 LLM 提炼的数据集。
以模型为中心的方法
以模型为中心的方法,通过优化模型参数和解码策略来增强 LLM 的推理能力。
对模型参数 θ 和解码策略 S 的联合优化,实际实现可分为:
• 指令微调:优化θ。
• 强化学习:优化θ。
• 推理-时间解码:优化S。
以模型为中心的方法,专注于通过优化模型的内部机制和解码策略来直接提高模型的推理能力,使它们与以数据为中心的方法相辅相成。
指令微调
指令微调 (IFT) 通过对特定于任务的指令进行监督学习来调整 LLM。例如,Liu [2023c] 设计涵盖不同抽象和复杂程度的多粒度指令。同样,Feng [2024] 通过复制形式演绎推理过程,IFT 模型可以模拟逻辑求解器。此外,Xu [2024a] 通过 Injection(注入符号知识)和 Infusion(平衡符号和 NL 推理)实现两阶段符号微调。
为了克服 IFT 的过拟合限制,Wang [2024b] 使用 IFT 强制进行事实/反事实路径之间的对比学习。此外,Wang [2024a] 使用程序引导学习框架和特定于逻辑的架构调整增强 Llamas。
最近,Muennighoff [2025] 提出 s1,通过 IFT 在 1,000 个制作的长 CoT 样本上实现测试-时间规模化。结合预算强制技术,它显著增强 Qwen2.5-32B-Instruct 模型的推理能力,允许在不进行测试时间干预的情况下推断其性能。
强化学习
强化学习 (RL) 已成为优化大语言模型 (LLM) 的关键,特别是自从人类反馈强化学习 (RLHF) 取得突破以来。Jiao [2024] 利用 RL 进行基于规划的推理优化,而 Xi [2024] 开发 R3,通过仅结果监督实现过程监督效益。
OpenAI-o1 [OpenAI, 2024] 中大规模 RL 的成功激发大量研究。强化学习算法训练 o1 式模型来增强思维链 (CoT) 推理,解决公式化输出和有限的长篇推理等问题。例如,Zhao [2024] 将 CoT 指令微调与蒙特卡洛树搜索 (MCTS) 解码相结合,以进行多路径推理探索。相比之下,Zhang [2024] 使用 MCTS 生成代码推理数据,用于指令微调 (IFT) 和直接偏好优化 (DPO)。
DeepSeek-R1 [DeepSeek-AI,2025] 取得重大突破,它开创一种强化学习策略来增强逻辑推理。DeepSeek-R1-Zero 纯粹通过强化学习进行训练,没有 IFT,表现出令人印象深刻的推理能力,但在可读性和语言一致性方面面临挑战。为了解决这个问题,DeepSeek-R1 在 RL 之前引入最小的长 CoT IFT 数据作为冷启动,从而实现可用性和推理性能之间的平衡。通过 RL 迭代合成高质量的推理数据,DeepSeek-R1 克服人类注释施加的限制,解决机械响应、重复模式和长链推理不足等问题。这种方法代表逻辑推理优化的潜在范式转变,突破 LLM 在结构化推理任务中可以实现的界限。
推理时间解码
推理-时间期间的逻辑推理增强方法分为推理时间规模化和受限解码。
推理时间规模化采用计算增强而无需参数更新。一种常见的方法是使用结构化输出和模块化工作流进行解码。GoT [Lei et al., 2023] 创建结构化推理节点以改进复杂的多步骤逻辑推理。类似地,逻辑链 [Servantez et al., 2024] 为法律推理引入分解-重组结构。在其他情况下,研究人员设计更复杂的模块化工作流程以获得更好的性能 [Creswell et al., 2023; Malon et al., 2024]。
另一种推理时间规模化方法涉及刺激自主推理,引导 LLM 迭代地完善他们的答案。Maieutic 提示 [Jung et al., 2022] 通过递归推理消除矛盾。同样,思维逻辑 [Liu et al., 2024a] 和 DetermLR [Sun et al., 2024] 以迭代方式逐步接近答案。
另一方面,约束解码方法侧重于提高推理过程的可控性和可靠性。 Neurologic [Lu et al., 2021] 强制谓词逻辑约束,而 Formal-LLM [Li et al., 2024b] 集成自动机来约束规划生成。
外部知识利用
LLM 在执行逻辑推理等复杂任务时,经常会由于幻觉而产生错误答案,因此有必要结合外部知识来帮助产生准确的答案。
Zayyad & Adi [2024] 和 Yang [2023] 从数学证明工具 Lean 中提取数据,以帮助定理证明。相比之下,“逻辑查询思维”(LQOT)[Liu,2024b] 在集成知识图谱之前将复杂的逻辑问题分解为更简单的子问题。
在阅读理解中,Ouyang [2023] 构建超级图来解决复杂的上下文推理,而 KnowRA [Mai,2025] 自主决定是否接受外部知识来协助文档级关系提取。
神经-符号方法
神经-符号混合方法,代表一个新兴的研究领域,旨在将深度学习的强大表示能力与符号推理的精确性和可解释性结合起来。
形式上,神经-符号混合系统,旨在优化神经模型 M 和符号求解器 P(其中 P 代表符号推理过程),以最大化逻辑推理性能。
优化过程涉及两个关键方向:
• 改进 M:包括改进模型的参数和解码策略,以产生既准确又与 P 兼容的符号表示。
• 增强 P:涉及提高符号求解器的处理能力。
通过联合优化 M 和 P,神经-符号混合系统旨在利用神经网络和符号推理的优势来实现卓越的逻辑推理能力。值得注意的是,在早期的神经-符号流水线中,P 通常被实现为固定的外部逻辑推理引擎,因此通常未经优化。然而,在高级实践中,LLM 越来越多地被用来扮演 P 的角色,从而实现多样化的优化。
从根本上说,这些方法涉及使用 LLM 将问题转换为符号表征,并使用外部符号求解器解决这些问题。例如,在 LINC [Olausson et al., 2023] 中,LLM 将自然语言 (NL) 转换为一阶逻辑 (FOL) 表达式,并利用外部定理证明器进行符号演绎推理。
进一步的努力集中在改进 NL -到-符号的翻译上。一种流行的方法是通过训练 [Yang et al., 2024a] 或解码策略 [Ryu et al., 2024] 直接优化翻译,而另一种则依赖于验证或纠正机制 [Yang et al., 2024a; Pan et al., 2023]。
在此基础上,最近的进展通过将 LLM 完全集成到推理过程中解决传统流水线的限制。逻辑智体 (LA) [Liu et al., 2024a] 用规则引导的 LLM 推理链取代外部求解器,而 LLM-TRes [Toroghi et al., 2024] 实现独立的可验证推理,而无需外部符号求解器。SymbCoT [Xu et al., 2024c] 完全通过 LLM 协调翻译、规划、求解和验证。Xu [2024b] 提出 Aristotle,它通过三个 LLM 驱动的组件进一步系统化符号推理流水线:逻辑分解器、逻辑搜索路由器和逻辑解析器。
将逻辑推理集成到大语言模型 (LLM) 中仍然是一项关键挑战,其特点是启发式性能与形式逻辑严谨性之间存在持续差距。该领域的三个尚未解决的紧张关系包括:
鲁棒性-泛化性
可解释性-性能
评估严谨性
应对这些挑战需要努力的点:
混合架构,动态集成神经和符号组件(例如可微分的定理证明器),以平衡可扩展性和精度。
评估框架,对受扰动的逻辑语句(例如否定前提、交换量词)进行压力测试,以将推理与记忆分开。
多模态推理以多种模态(文本、图像、代码)为基础,在增强鲁棒性和可解释性方面具有尚未开发的潜力。
跨学科合作——利用形式逻辑、认知科学和机器学习的见解——对于设计推理不确定性的系统至关重要。