📖标题:AdaptiveStep: Automatically Dividing Reasoning Step through Model Confidence
🌐来源:arXiv, 2502.13943
🌟摘要
🔸当前训练过程奖励模型(PRM)的方法通常涉及使用基于规则的技术将响应分解为多个推理步骤,例如使用预定义的占位符令牌或将推理步骤的长度设置为固定大小。这些方法忽略了这样一个事实,即特定的单词通常不会在文本中标记真正的决策点。
🔸为了解决这个问题,我们提出了自适应步骤,这是一种根据模型预测下一个单词的置信度来划分推理步骤的方法。这种划分方法在每一步都提供了更多的决策信息,增强了下游任务,如奖励模型学习。此外,我们的方法不需要手动注释。
🔸我们通过在数学推理和代码生成任务中使用AdaptiveStep训练的PRM进行实验来证明其有效性。实验结果表明,结果PRM达到了最先进的Best-of-N性能,超越了采用令牌级值引导解码的贪婪搜索策略,同时与现有的开源PRM相比,其构建成本降低了30%以上。此外,我们还对PRM的性能、可转移性和泛化能力进行了深入的分析和案例研究。我们在https://github.com/Lux0926/ASPRM上提供代码。
🛎️文章简介
🔸研究问题:如何自动、高效地将复杂推理过程划分为合理的推理步骤,以提高大语言模型(LLM)在处理复杂推理问题时的表现。
🔸主要贡献:论文提出了一种新的推理步骤划分方法AdaptiveStep,以及相应的过程奖励模型ASPRM,显著提高了在数学推理和代码生成任务中的模型性能。
📝重点思路
🔸AdaptiveStep方法:通过使用语言模型生成多个响应,并基于采样token的概率作为模型信心的指标,自动确定推理步骤的划分点。
🔸过程奖励(PRM)训练:通过估计每个推理步骤的目标奖励,训练PRM以提供逐步反馈,从而指导大型语言模型的推理过程。
🔸Token级价值引导解码(TVD)策略:在模型遇到低信心评分时,利用PRM评估候选token,选择最优token以提高最终输出的质量。
🔎分析总结
🔸ASPRM在数学推理任务中相较于已有的开源方法表现优越,尤其在GSM8k和MATH500数据集上分别提高了3.15%和14.4%的性能。
🔸在代码生成任务中,ASPRM在BoN评估中表现出更好的鲁棒性,超越了贪婪解码的效果。
🔸ASPRM展现出良好的迁移性和泛化能力,能够在不同领域和任务中保持较强的表现。
🔸混合训练数据(如数学和代码领域的数据)能进一步提高PRM的性能,说明不同领域的数据对推理模型的训练有互相促进的作用。
💡个人观点
论文的核心是基于模型输出时token的置信度,对推理过程进行划分以构建步骤级奖励函数。