推理规模化定律：LLM 求解问题的计算-最优推理实证分析

本文链接：https://blog.csdn.net/yorkhunter/article/details/142995875

24年10月来自清华和CMU的论文“Inference Scaling Laws: An Empirical Analysis Of Compute-optimal Inference For LLM Problem-solving ”。

虽然大语言模型 (LLM) 训练的规模化规律已得到广泛研究，但 LLM 的最佳推理配置仍未得到充分探索。本文研究推理规模化规律和计算-最优推理，重点关注模型大小和使用不同推理策略生成额外tokens之间的权衡。作为理解和设计计算-最优推理方法的第一步，研究贪婪搜索、多数投票、n 选一、加权投票和两种不同的树搜索算法等推理策略的成本-性能权衡，使用不同的模型大小和计算预算。本文研究结果表明，在给定相同计算预算的情况下，较小的模型（例如 Llemma-7B）可以胜过较大的模型，并且较小的模型与高级推理算法配对可产生Pareto最优的成本-性能权衡。例如，配备新树搜索算法的 Llemma-7B 模型在所有 FLOPs 预算上在 MATH 基准测试中始终优于使用标准多数投票的 Llemma-34B。

神经网络的规模化定律（Hestness，2017；Rosenfeld，2019）已在一系列领域建立，包括语言建模（Kaplan，2020；Hoffmann，2022；OpenAI，2023）、图像建模（Henighan，2020；Yu，2022；Peebles & Xie，2023 年）、视频建模（Brooks，2024）、奖励建模（Gao，2023）和棋盘游戏（Jones，2021）。这些研究表明模型性能如何受模型大小和训练计算量的影响。然而，对于在模型训练后，推理过程中计算的变化如何影响模型性能的知识有限。

过程奖励模型 (PRM) 已成为一种提高 LLM 推理和解决问题能力的技术。这些模型将奖励分配给 LLM 生成序列的中间步骤。事实证明，PRM 可有效选择错误率较低的推理轨迹，并在强化学习式算法中提供奖励（Uesato，2022；Polu & Sutskever，2020；Gudibande，2023）。（Ma 2023) 应用 PRM 对中间步骤给予奖励并指导多步骤推理过程。PRM 可以针对人工标记的数据（Lightman，2023a）或模型标记的合成数据（Wang，2023）进行训练。

为了提高大语言模型 (LLM) 的任务性能，推理技术通常涉及在推理时进行额外的计算作为性能最大化的步骤 (Nye，2021；Wei，2022；Wang，2022b；Yao，2023；Chen，2024b)。计算最优推理必须考虑这些技术的计算成本。例如，蒙特卡洛树搜索 (MCTS) 方法 (Jones，2021) 可能会提高任务性能，但可能需要比简单地多次采样解决方案更多的计算。一般来说，需要全面了解各种推理时间方法（例如，n 中最佳、多数投票 (Wang，2022a；Li ，2023)）如何在性能和成本之间权衡。

具体来说，探索如何选择语言模型的最佳大小和有效的推理策略（例如，贪婪搜索、多数投票、n 中最佳、加权投票及其树搜索变型），以在给定的计算预算下最大化性能（即准确性）。让语言模型生成更多tokens，对进一步的候选解决方案进行采样并使用奖励模型对其进行排名，控制固定模型的推理计算（FLOPs）。分析在数学推理基准上，例如，GSM8K 测试集（Cobbe，2021a）和 MATH500 测试集（Hendrycks，2021b；Lightman，2023b），给定不同推理 FLOPs 各种大小微调模型的性能。实验涵盖多个模型系列，包括通用 LLM，例如 Pythia (Biderman，2023) 和 Mistral (Jiang，2023)，以及数学专用模型，例如 Llemma (Azerbayev，2023)。

如图所示：Pythia (Biderman，2023) 模型和 GSM8K 测试误差表现出的推理规模化规律。用各种大小和数量的采样解决方案进行加权多数投票，评估模型的错误率（越低越好）。左图：随着推理计算的增加，每种模型大小的错误率稳步下降，最后收敛。右图：最佳模型大小（ 2^41、244 和 2^47 FLOPs 显示为星号）根据推理时间计算预算而变化。例如，较小的模型在 2^41 和 2^44 FLOPs 时计算最佳。图中两个轴都是对数刻度。

添加图片注释，不超过 140 字（可选）

如图所示，探讨以下问题：给定固定的 FLOPs 预算，应该如何为策略模型选择最佳模型大小，以及如何选择有效的推理策略来最大化性能（即准确性）？

请添加图片描述

为了解决这个问题，将解决的错误率 E(N, T ; S) 表示为模型参数数量 N、生成的tokens数量 T 和推理策略 S 的函数。计算预算 C 是一个基于 N 和 T 的确定性函数 FLOPs(N, T ; S)。目标是在测试-时间计算约束 FLOPs(N, T, S) = C 下最小化 E。

固定模型的推理计算 (FLOPs) 可以通过使用策略模型和推理策略生成更多 token 来调整，例如，对其他候选解决方案进行采样，然后使用奖励模型对其进行排名。作为推理策略，主要考虑与重排名或多数投票相结合的采样和树搜索方法。这包括贪婪搜索、多数投票、n 选一、加权投票及其树搜索变型。

蒙特卡洛树搜索 (MCTS) 已被证明在棋盘游戏等需要战略决策的领域非常有效 (Silver，2016；2017；Jones，2021)。最近的研究表明，将 MCTS 适应 LLM 的环境可以增强文本生成过程 (Zhang，2023；Zhou，2023；Liu，2024；Choi，2023；Chen，2024a；Tian，2024；Chen，2024a)。在此背景下，MCTS 与价值模型配对，以评分和指导探索步骤。

MCTS 或其变型，例如思维树（Yao，2023）的近期研究，主要集中于提高所研究任务的性能（例如，准确性）。然而，在计算预算（以生成的tokens或处理时间衡量）方面，MCTS 与传统方法（如 n 选 1 和多数表决）的一般性比较很少，或者表明潜在不利的成本效益。例如，MCTS 消耗的资源要多得多，通常需要比简单方法多生成几十倍的tokens。具体而言，搜索树中很大一部分路径用于估计和选择节点，这些路径不一定成为最终候选解的一部分，尽管 MCTS 确保采样的解包含高质量的中间步骤。相反，采样方法并行且独立地生成多个解，并且所有生成的序列都包含在候选解中。但是，这些序列中的中间步骤不能保证质量很高，因为没有机制可以修剪较差的步骤或利用有希望的步骤。

这凸显对一种树搜索方法的需求，该方法可以实现与 MCTS 相当（或更好）的性能，并且计算成本较低，成本与加权多数投票和最佳 n 相似。为此，本文就提出了奖励平衡搜索 (REBASE)。如图所示：REBASE 树搜索方法继承树搜索的利用和修剪属性，同时仅使用奖励模型来估计中间节点的质量。与 MCTS 等方法相比，这节省了计算量，因为它不涉及使用显式部署来估计节点质量。简而言之，基本思想是使用过程奖励模型（PRM）来确定每个节点在每个深度应扩展多少。也就是说，REBASE 根据节点的 softmax 归一化奖励分数在给定深度扩展节点，但要遵守总扩展预算。

请添加图片描述

实验设置如下。

数据集。在两个数学问题解决数据集上进行了实验，研究推理-计算规模化对具有挑战性的问题和简单问题的影响。具体来说，MATH（Hendrycks，2021a）和 GSM8K（Cobbe，2021b）分别是包含高中数学竞赛级问题和小学级数学推理问题的数据集。接下来（Lightman，2023b；Wang，2024；Sun，2024），用 MATH500 子集作为测试集。

策略模型（解决方案生成器）。为了研究使用固定策略增加推理计算性能如何扩展，变化的主要轴是模型大小。因此，选择 Pythia（Biderman，2023）作为基础模型，因为 Pythia 系列中有各种模型大小。为了研究不同推理策略（例如树搜索、加权多数投票）下的推理扩展，用数学专门的 Llemma 模型（Azerbayev ，2024）。用全参数监督微调（Full-SFT）在 MetaMath 数据集（Yu，2024）上对这些模型进行微调。此外，还测试 Mistral-7B（Jiang，2023），扩展到不同的模型和架构中。

奖励模型。所有实验都使用相同的 Llemma-34B 奖励模型，在合成过程奖励建模数据集 Math-Shepherd (Wang，2024) 上对该模型进行微调。在模型中添加了一个奖励头，使其能够在每个步骤结束时输出标量奖励。

推理配置。用抽样和树搜索方法来生成多个候选答案，并通过 n 选 1、多数投票或加权投票来选择答案。每个配置都会运行多次以计算平均值和方差，从而减轻随机性的影响，从而提高结论的可靠性。