
📖标题:TaTToo: Tool-Grounded Thinking PRM for Test-Time Scaling in Tabular Reasoning
🌐来源:arXiv, 2510.06217
🌟摘要
过程奖励模型 (PRM) 最近已成为增强大型推理模型 (LRMs) 推理能力的强大框架,特别是在测试时间缩放 (TTS) 的背景下。然而,它们在表格推理域上监督 LRM 的潜力仍未得到充分探索。通过详细的实证分析,我们发现现有的PRM虽然被广泛用于监督纯文本推理步骤,但与特定于表的操作(如子表检索和模式交互)斗争,导致关键的性能瓶颈。为了解决这个限制,我们提出了一种新的基于表的 PRM 框架 TATTOO,该框架 (i) 在表格推理步骤上明确进行推理,以及 (ii) 集成基于工具的验证以提供精确的奖励监督。具体来说,我们首先设计了一个可扩展的数据管理管道,通过将表验证原理与基于工具的执行相结合来构建超过 60k 的高质量步骤级注释。在收集的数据的基础上,我们使用两阶段范式训练 TATTOO:冷启动监督微调以捕获工具使用推理模式,然后使用基于工具的奖励塑造强化学习将我们的模型与基于表的验证对齐。我们对我们新设计的 PRM 诱导的策略改进进行了全面评估。在涵盖数值推理、事实检查和数据分析的 5 个具有挑战性的表格推理基准测试中,TATTOO 在推理时将下游策略 LRM 提高了 30.9%,超过了强大的 PRM 基线,例如 Qwen-2.5-Math-PRM-72B,只有 8B 参数,并展示了跨不同 TTS 策略的强大泛化能力。
🛎️文章简介
🔸研究问题:如何在表格推理任务中提高大型推理模型(LRM)的性能,尤其是在测试时如何进行有效的步骤验证?
🔸主要贡献:论文提出了TATTOO,一个新颖的工具增强推理模型(PRM),以改进表格推理的验证过程,显著提升了下游模型的表现。
📝重点思路
🔸设计了一种大规模数据整理管道,以生成高质量的监督实例,通过集成专家验证和工具执行来提升模型的准确性。
🔸在双重阶段训练下,首先通过监督微调来捕捉步骤级工具使用的推理模式,然后使用强化学习与新设计的奖励塑造方案来鼓励有效的工具操控和准确的验证。
🔸研究了现有PRM在表格推理中的不足,特别是在步骤级奖励监督和长范围依赖关系的处理方面,提出了新的解决方案。
🔎分析总结
🔸通过实验验证了TATTOO可以提升下游模型的表现,整体性能提升达30.9%,在多个表格推理基准上超越了传统PRM,表现出了更高的参数效率(最高可达9倍)。
🔸识别出演示中PRM在表格相关操作(如表格检索和模式交互)的局限性,并通过强化步骤级奖励塑造有效改善了该问题。
🔸TATTOO模型在不同的测试时间策略(TTS)中具备较强的普适性,表明其在多样化任务中的有效性。
💡个人观点
论文结合了工具的应用与推理过程,提出了针对表格推理任务的细致步骤级奖励监督机制。
🧩附录

1343

被折叠的 条评论
为什么被折叠?



