阿里:LLM工具自学习提升复杂推理

在这里插入图片描述

📖标题:START: Self-taught Reasoner with Tools
🌐来源:arXiv, 2503.04625

🌟摘要

🔸OpenAI-o1和DeepSeek-R1等大型推理模型(LRM)通过利用长链思维(CoT)在复杂的推理任务中表现出了卓越的能力。然而,由于仅依赖于内部推理过程,这些模型经常出现幻觉和效率低下的问题。
🔸本文介绍了START(Self-Taught Reasoner with tools),这是一种集成了长CoT推理LLM的新型工具,通过利用外部工具显著提高了推理能力。通过代码执行,START能够执行复杂的计算、自检、探索各种方法和自调试,从而解决LRM的局限性。START的核心创新在于其自学习框架,该框架包括两项关键技术:1)提示推断:我们证明,在LRM的推断过程中插入人工设计的提示(例如,“等等,也许在这里使用Python是个好主意。”)可以有效地激发其利用外部工具的能力,而不需要任何演示数据。提示推断也可以作为一种简单有效的顺序测试时间缩放方法;2) 提示拒绝采样微调(Hint-RFT):提示RFT通过评分、过滤和修改推理轨迹,将提示推断和RFT结合起来,并使用LRM通过提示推断生成的工具调用进行修改,然后对LRM进行微调。通过这个框架,我们对QwQ-32B模型进行了微调,以实现START。
🔸在博士级科学QA(GPQA)、竞赛级数学基准(AMC23、AIME24、AIME25)和竞赛级代码基准(LiveCodeBench)上,START的准确率分别为63.6%、95.0%、66.7%、47.1%和47.3%。它明显优于基本的QwQ-32B,性能可与最先进的开放式重量型号R1-Distill-Qwen-32B和专有型号o1 Preview相媲美。

🛎️文章简介

🔸研究问题:如何将长链思维(Long CoT)与工具集成(Tool Integration)相结合,以提高大语言模型(LLM)在复杂推理任务中的表现。
🔸主要贡献:论文提出了START模型,这是第一个开源的工具自学习推理模型,显著提升了在数学问题解决、科学探究和编码挑战等多个基准上的性能。

📝重点思路

🔸Hint-infer:设计一组提示,并在推理过程中随机插入这些提示,以促使模型进行自我反思和探索。
🔸Hint-RFT:通过Hint-infer得到种子数据,对QwQ进行微调得到START-0
🔸RFT:用START-0生成生成新的训练数据集,进一步训练得到START模型。
🔸模型评估:选取多个数学基准(如MATH500、AMC23等)和编码基准(如LiveCodeBench)进行评估,确保模型在不同类型问题上的有效性。
🔸实验设计:通过对比实验,分析工具调用能力对模型性能的影响,验证Hint-infer和Hint-RFT的有效性。

🔎分析总结

🔸性能提升:START在MATH基准上相较于其他模型(如QwQ、o1-mini等)表现出显著的性能优势,特别是在复杂计算和推理任务中。
🔸工具调用的重要性:实验结果显示,START的性能提升主要源于其工具调用能力,而不仅仅是训练数据集的扩展。
🔸提示的有效性:在推理过程中插入提示(Hint-infer)能够提高模型的思维时间和准确性,尽管相较于START的改进仍显得相对温和。

💡个人观点

论文的核心在于通过提示让模型自我反思和探索,从而构建思维链数据训练模型。

🧩附录

在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值