2025版最新大模型推理能力优化技术总结，零基础入门到精通，收藏这一篇就够了

agi大模型

已于 2025-03-04 16:17:32 修改

阅读量849

点赞数 13

文章标签：人工智能深度学习机器学习电脑私有知识微调大模型神经网络 oracle

于 2025-02-13 14:03:17 首次发布

本文链接：https://blog.csdn.net/weixin_49892805/article/details/145610842

版权

这其实是属于o1专题，大模型推理的范畴。这个方向上，目前主流方式是引入“cot”，即引入代表推理过程中间步骤的一系列标记，使LLMs能够模仿复杂的人类推理过程，如树搜索和反思性思维。

最开始，大家发现，在测试时推理过程中鼓励大模型使用更多标记进行“思考”，可以进一步提高推理准确性。

后面openai-o1 出来之后，大家有发现，可以应用强化学习（RL）来训练LLMs掌握推理过程，这种方法通过试错搜索算法自动生成高质量的推理轨迹，通过提供大量更多的训练数据显著扩展了LLMs的推理能力。

《Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models》(https://arxiv.org/pdf/2501.09686v1)，这个工作读了一遍，很不错，总结大模型推理能力的最新进展，强调了“思考”概念的引入、强化学习的应用、测试时扩展的潜力、过程奖励模型的作用以及高质量推理数据的重要性，还提到了目前大模型进行推理的一些标准Benchmark：

我们可以看几个点。

1、大模型推理能力学习的几个阶段

实际上，如果我们把大模型推理能力学习这个目铺开的话，目前大模型这块已经变成了以下几个路径。

一个是预训练Pre-trianing，LLMs的预训练阶段通过大规模文本语料库进行训练，获得核心语言知识和世界知识。富含代码和数学内容的数据集是发展强大推理技能的关键基础。

一个是微调Fine-tuning，微调技术用于实现零样本推理能力和改进推理能力，通过多样化的指令数据集进行训练。与预训练不同，微调专门计算答案的损失，通常忽略问题的损失。纳入包含思维链（CoT）推理和数学问题解决示例的数据集已被证明能显著提升大型语言模型的推理能力。 通过明确训练模型在得出答案之前生成中间推理步骤。借助基于CoT的SFT，大模型被鼓励明确生成中间推理步骤，从而增强其处理需要更结构化、有组织思维的任务的推理能力。这种方案实际上是提高了它们的可解释性，并通过生成更透明、逐步的思维过程，减少了复杂决策场景中的错误。

但是，SFT严重依赖于高质量的标记数据集，这些数据集的收集可能既昂贵又耗时，特别是对于那些需要专家注释的小众领域或任务。SFT可能导致灾难性遗忘，即在微调过程中模型丢失了一些预训练的通用知识，减少其在微调领域之外的任务推理效用。即使采用参数高效的方法，微调大规模模型的计算成本仍然可能很，这对资源有限的组织构成了挑战。

一个是对齐Alignment，使用强化学习从人类反馈中进行数据构建和模型训练，以提高模型的安全性和可控性。与SFT（自监督微调）阶段相比，这一阶段通常会整合大量精心策划、手动标记的排序数据，以准确反映人类偏好，这些数据不仅包括正确的示范，还包括应当避免的不良案例。由于标准RLHF对高数据需求和训练成本的需求，提出了像直接偏好优化（DPO）方法来减少对显式奖励模型的依赖。在DPO中，偏好损失被定义为一个策略函数，直接指导模型优化。鉴于推理问题的多步骤性质和复杂性，基于对齐的后训练已成为激发LLMs推理能力的最后且最关键的一步。通过仔细分解推理过程并逐步向模型反馈信号，基于强化学习和偏好学习的各种自训练方法已经取得了显著的成功。

一个是提示LLMs进行高级推理Prompting LLMs for Advanced Reasoning：通过多种提示技术增强LLMs的推理能力，如逐步推理、多路径探索和解构方法。

其中：

逐步推理方中简单的提示，如“让我们一步步思考”，也能有效指导推理过程，自我一致性生成多个推理路径以得出更可靠的结论；

多路径探索方法考虑多个可能的解决方案路径。思维树（Tree of Thoughts）以树状结构组织替代推理路径，使得能够系统地探索不同的解决策略。思维图（Graph of Thoughts）将其推广到图形结构，允许更灵活的推理模式和回溯能力。反应式思维（ReAct）通过将推理与行动步骤交织在一起，丰富了这一范式，使其能够与外部环境进行更动态的互动。

对于复杂问题，基于分解的方法已被证明特别有效。Least-to-Most Prompting和Algorithm of Thoughts系统地将复杂问题分解为可管理的组成部分，Plan-and-Solve为解决这些子问题提供了指导，这类方法在处理需要多步骤或不同分析层次的任务时特别有价值。

例如使用过程奖励模型（PRM）和结果奖励模型（ORM）来提高多步推理能力。或者在测试时使用PRM进一步提高模型的推理能力，采用多数投票、树搜索和束搜索等方法。

这里可以再展开来说，如图3所示，红色空心圆圈代表在推理阶段的算法探索过程中被丢弃的推理路径，绿色空心圆圈表示在探索过程中采用的推理路径，而绿色实心圆圈标记一旦正确答案被识别出推理路径的终点。

因此，怎么拿到这个准确路径，方案就显得很有趣。

多数投票是从密集的测试时计算中生成最终答案最直接的一种策略。在推理过程中，每个推理轨迹对给定输入产生一个预测。基本思想是选择大多数推理轨迹都符合的答案，然后，所有模型的预测结果被汇总起来，出现次数最多的类别（即“多数投票”）被选为最终输出。

树搜索通过递归构建搜索树系统地探索不同选择，常用于复杂的决策问题，例如棋类游戏和规划任务。蒙特卡洛树搜索（MCTS）是最广泛使用的树搜索方法之一，包括四个主要步骤：选择、扩展、模拟和反向传播。通过逐步扩展搜索空间，MCTS逐步改进决策。

束搜索是一种改进版的贪婪搜索，通常用于生成任务中选择最优输出序列。其主要思想是在每个时间步骤保留所有候选路径中得分最高的K条路径（称为束），以便进一步扩展。与贪婪搜索不同，束搜索保持多条候选路径，从而扩展了搜索空间并提高了生成质量。

一个是代理工作流Agentic Workflow：设计代理工作流以增强LLMs的推理能力，通常需要更多的测试时计算资源。这里的优势在于，代理工作流程允许在不需要任何额外训练的情况下提高大模型的推理能力，但它通常需要更多的测试时间计算。 例如，上下文学习通过简单地提供一些上下文演示来提高大模型针对特定任务的性能，使其能够泛化到未见过的难题，这里的逻辑很有趣，上下文学习是通过让大模型捕捉标签空间、输入文本的分布以及期望的答案格式，从而提高了它们的性能。

2、关于推理阶段的训练数据构建方式

大家有种很明显的感觉，缺乏训练数据是核心问题。人工标注通常非常昂贵，特别是对于那些已被证明在监督大型语言模型推理方面有效的逐步推理轨迹，也就是说，提升大型语言模型的推理能力需要过程监督，即人类注释者指导推理过程的每一个步骤。在复杂的推理任务中，模型的每一个输出步骤都可能显著影响最终结果，因此标记中间决策为“正确”、“错误”或赋予一个中间奖励（即过程注释）至关重要。

为了解决这个问题，最近的研究已从人工标注转向由大模型驱动的搜索算法。这些方法利用外部验证来处理推理问题，并通过试错搜索自动生成准确的推理轨迹。

例如，人工标注在构建数据集中不可或缺，但成本高昂且难以扩展，但通过LLM进行数据标注提供了一种更具成本效益的替代方案，但仍面临验证挑战。

所以，也是解决这个验证的问题，最近又新起了一个叫做过程标注的工作，自动化方法用于标注推理过程中的中间步骤，包括使用更强大的LLM、蒙特卡罗模拟和蒙特卡罗树搜索等方法。

所以就有了以下方案，利用大模型加速过程的同时保持人类生成标注的高质量。

分成预标注阶段和和精细化阶段。在预标注阶段，利用大模型进行初步的注释工作，通过利用少量人工提供的示例来快速高效地设置。在精细化阶段，人工标注人员可以评估LLM生成的标注质量，并专注于仅纠正质量不佳的标注子集。所以，这个有一个趋势，如何在确保数据质量的同时最大化自动化，从而减少人力投入而不影响注释的准确性。

所以更进一步的，可以有几种方式：

一个是使用更强大的大模型进行标注，比如都喜欢蒸馏GPT4O这类模型，但这种方法的主要局限性在于其依赖于高度能力的外部模型，这意味着标注过程的性能最终受到所使用外部模型能力的限制。

一种是通过蒙特卡罗模拟进行标注，使用外部模型从给定的中间输出继续推理几个步骤，并随机重复这个模拟过程多次。然后基于这些扩展推理的平均结果来评估中间步骤的质量。

一种是通过树搜索模拟进行标注。用蒙特卡罗树搜索（MCTS）策略代替了重复的蒙特卡罗模拟。在这种改进的方法中，使用MCTS从中间步骤生成多个代表最终推理结果的叶节点。然后基于这些叶节点的平均结果评估中间步骤的质量。与随机重复推理相比，MCTS利用树搜索提高了推理质量，同时也允许叶节点共享高质量父节点，减少了计算开销并提高了效率。

一种是通过获得的过程标注来训练一个过程奖励函数（PRM），然后使用精炼后的LLM重复基于MCTS的模拟，生成更高质量的标注。