南大：通过置信度自动划分LLM推理步骤_adaptivestep: automatically dividing reasoning ste-CSDN博客

本文链接：https://blog.csdn.net/weixin_46739757/article/details/146074789

在这里插入图片描述

📖标题：AdaptiveStep: Automatically Dividing Reasoning Step through Model Confidence
🌐来源：arXiv, 2502.13943

🌟摘要

🔸当前训练过程奖励模型（PRM）的方法通常涉及使用基于规则的技术将响应分解为多个推理步骤，例如使用预定义的占位符令牌或将推理步骤的长度设置为固定大小。这些方法忽略了这样一个事实，即特定的单词通常不会在文本中标记真正的决策点。
🔸为了解决这个问题，我们提出了自适应步骤，这是一种根据模型预测下一个单词的置信度来划分推理步骤的方法。这种划分方法在每一步都提供了更多的决策信息，增强了下游任务，如奖励模型学习。此外，我们的方法不需要手动注释。
🔸我们通过在数学推理和代码生成任务中使用AdaptiveStep训练的PRM进行实验来证明其有效性。实验结果表明，结果PRM达到了最先进的Best-of-N性能，超越了采用令牌级值引导解码的贪婪搜索策略，同时与现有的开源PRM相比，其构建成本降低了30%以上。此外，我们还对PRM的性能、可转移性和泛化能力进行了深入的分析和案例研究。我们在https://github.com/Lux0926/ASPRM上提供代码。

🛎️文章简介

🔸研究问题：如何自动、高效地将复杂推理过程划分为合理的推理步骤，以提高大语言模型（LLM）在处理复杂推理问题时的表现。
🔸主要贡献：论文提出了一种新的推理步骤划分方法AdaptiveStep，以及相应的过程奖励模型ASPRM，显著提高了在数学推理和代码生成任务中的模型性能。

📝重点思路

🔸AdaptiveStep方法：通过使用语言模型生成多个响应，并基于采样token的概率作为模型信心的指标，自动确定推理步骤的划分点。
🔸过程奖励（PRM）训练：通过估计每个推理步骤的目标奖励，训练PRM以提供逐步反馈，从而指导大型语言模型的推理过程。
🔸Token级价值引导解码（TVD）策略：在模型遇到低信心评分时，利用PRM评估候选token，选择最优token以提高最终输出的质量。

🔎分析总结

🔸ASPRM在数学推理任务中相较于已有的开源方法表现优越，尤其在GSM8k和MATH500数据集上分别提高了3.15%和14.4%的性能。
🔸在代码生成任务中，ASPRM在BoN评估中表现出更好的鲁棒性，超越了贪婪解码的效果。
🔸ASPRM展现出良好的迁移性和泛化能力，能够在不同领域和任务中保持较强的表现。
🔸混合训练数据（如数学和代码领域的数据）能进一步提高PRM的性能，说明不同领域的数据对推理模型的训练有互相促进的作用。