📖标题:ToolComp: A Multi-Tool Reasoning & Process Supervision Benchmark
🌐来源:arXiv, 2501.01290
🌟摘要
🔸尽管人工智能最近取得了进展,但开发能够执行涉及多种工具的复杂、多步骤推理任务的系统仍然是一个重大挑战。当前的基准测试在捕捉工具使用推理的真实世界复杂性方面存在不足,在推理过程中,验证最终答案和中间步骤的正确性对于评估、开发和识别失败都很重要。
🔸为了弥合这一差距,我们引入了ToolComp,这是一个旨在评估多步骤工具使用推理的综合基准。ToolComp是通过模型和人工注释器之间的协作开发的,具有人工编辑/验证的提示、最终答案和过程监督标签,允许对最终结果和中间推理进行评估。对六个不同模型族的评估表明了我们数据集的挑战性,大多数模型的准确率不到50%。此外,我们生成合成训练数据,比较结果监督奖励模型(ORM)和过程监督奖励模型的性能,以评估它们改善ToolComp评估的复杂工具使用推理的能力。
🔸我们的结果表明,PRM的泛化能力明显优于ORM,分别提高了19%和11%rank@1分别用于排名基础和微调模型轨迹的准确性。这些发现强调了过程监督在人工智能模型的评估和训练中的关键作用,为在复杂的多步骤工具使用任务中建立更强大和更有能力的系统铺平了道路。
🛎️文章简介
🔸研究问题:如何评估大语言模型(LLM)在复杂多步骤工具使用任务中的有效性?
🔸主要贡献:论文贡献了一个名为ToolComp的多工具推理和过程监督基准,旨在评估模型执行多步骤工具使用任务的能力。
📝重点思路
🔸数据集构建:通过人工和AI协作的方式生成详细的每步监督标签,确保每个提示的解决方案包含一系列依赖的工具调用,并且最终答案可以通过程序验证。
🔸模型评估:评估了16个模型在复杂多步骤工具使用任务中的表现,包括最终答案的准确性和中间推理能力。
🔸过程监督与结果监督对比:通过训练过程监督模型(PRM)和结果监督模型(ORM),比较它们在选择最佳轨迹上的表现。
🔸实验设计:使用Llama-3.1-8b-Instruct作为策略模型生成器,GPT-4o作为批评模型生成器,生成合成提示和过程/结果监督标签。
🔎分析总结
🔸PRM优于ORM:在基础模型和SFT模型生成中,PRM在rank@1准确率上均优于ORM,特别是在处理更复杂的提示时表现更佳。
🔸全步骤监督方法最佳:提供关于整个步骤(包括观察)是否正确的信号,使得PRM表现最佳。
🔸PRM在数据增加时表现更好:随着训练数据的增加,PRM的表现持续优于ORM,特别是在基础模型生成中。
🔸最大聚合函数最佳:在将步骤级分数组合成单一分数时,最大聚合函数表现最佳。
💡个人观点
论文核心在于引入了ToolComp基准,通过详细的过程监督标签,能够严格评估模型的中间推理能力,并展示了过程监督在多步骤工具使用任务中的显著优势。
🧩附录