📖标题:ProcessBench: Identifying Process Errors in Mathematical Reasoning
🌐来源:arXiv, 2412.06559
🌟摘要
🔸由于语言模型在解决数学问题时经常出错,因此自动识别推理过程中的错误对于其可扩展的监督变得越来越重要。本文介绍了用于衡量识别数学推理中错误步骤能力的PROCESBENCH。它由3400个测试用例组成,主要关注竞赛和奥林匹克级别的数学问题。每个测试用例都包含一个逐步解决方案,并由人类专家注释错误位置。需要模型来识别包含错误的最早步骤,或得出所有步骤都是正确的结论。
🔸我们对PROCESSBENCH进行了广泛的评估,涉及两种类型的模型:过程奖励模型(PRM)和批评模型,对于后者,我们提示通用语言模型逐步批评每个解决方案。我们得出两个主要观察结果:(1)现有的PRM通常无法推广到GSM8K和math之外更具挑战性的数学问题。它们的表现不如评论家模型(即提示的通用语言模型)和我们自己训练的PRM,后者在PRM800K数据集上直接进行了微调。(2) 最好的开源模型QwQ-32B预览版已经证明了与专有模型GPT-4o竞争的批判能力,尽管它仍然落后于专门的o1-mini推理。我们希望PROCESSBENCH能够促进推理过程评估的未来研究,为语言模型的可扩展监督铺平道路。详见https://github.com/QwenLM/ProcessBench
🛎️文章简介
🔸研究问题:如何自动化地识别语言模型在复杂数学推理任务中的错误步骤?
🔸主要贡献:论文提出了PROCESSBENCH基准,用于评估语言模型在数学推理过程中识别错误步骤的能力,并展示了现有模型的不足和改进方向。
📝重点思路
🔸任务定义:PROCESSBENCH专注于识别数学推理过程中最早出现的错误步骤,对于没有错误的测试用例,标签为-1。
🔸试题来源:从数学推理任务中的四个公共且广泛使用的数据集的测试集中收集数学问题,包括小学、竞赛或奥林匹克难度的问题。
🔸数据生成:使用多种开源语言模型(如Qwen和LLaMA系列)生成解决方案,确保解决方案的多样性和真实性。
🔸专家标注:招募具有博士水平的数学专家进行标注,确保标注的准确性和可靠性。标注过程中,每个解决方案由三位专家独立标注,若无法达成一致,增加标注人数直至达成共识。
🔸模型评估:分为两类,过程奖励模型(PRM)和批评模型。PRM通过预测每个推理步骤的正确性来识别错误步骤,而批评模型则通过提示工程对解决方案进行逐步批评。
🔎分析总结
🔸PRM的局限性:现有PRM在处理更复杂的数学问题时表现不佳,尤其是在OlympiadBench和Omni-MATH等高难度问题上,其泛化能力有限。
🔸批评模型的优势:批评模型在识别错误步骤方面表现优于PRM,尤其是在处理复杂问题时,批评模型能够提供更详细的解释和反馈。
🔸模型性能与问题难度:随着问题难度的增加,所有模型的性能均有所下降,表明现有模型在处理高难度数学问题时仍存在显著挑战。
🔸标注难度与问题难度:更复杂的问题通常需要更多的标注者才能达成一致,表明标注任务本身在高难度问题上也具有挑战性。
💡个人观点
论文的核心是建了一个基准,评估语言模型能否识别数学推理过程中的错误步骤。
🧩附录