李飞飞S1模型挑战DeepSeek(论文解读)

 人工智能咨询培训老师叶梓 转载标明出处

想要掌握如何将大模型的力量发挥到极致吗?叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具(限时免费)。

1小时实战课程,您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型,以发挥其最大潜力。

CSDN教学平台录播地址:https://edu.csdn.net/course/detail/39987

更多分享,关注视频号:sphuYAMr0pGTk27

论文《s1: Simple test-time scaling》提出了一种简单而有效的测试时扩展方法,用于提升大模型在复杂推理任务中的表现。该方法的核心在于通过少量数据和简单的测试时干预技术,实现模型性能的显著提升。

图1展示了 s1-32B 模型在测试时扩展计算量时的性能变化。图中横轴为测试时使用的思考标记(tokens)数量,纵轴为准确率(Accuracy)。图中可以看到,随着测试时计算量的增加,s1-32B 的性能逐渐提升,特别是在 AIME24 数据集上,从 50% 提升到 57%。

数据集构建与筛选

研究团队首先构建了一个包含59029个问题的大型数据集,然后通过严格的筛选流程,最终得到1000个高质量、多样且具有挑战性的问题,形成了s1K数据集。筛选过程遵循三个核心标准:质量、难度和多样性。例如,团队通过模型的性能和推理链的长度来评估问题的难度,并通过分类系统确保问题的多样性。

图2左侧展示了 s1K 数据集的构成,每个问题都配有推理轨迹。右侧展示了 s1-32B 模型在样本效率上的表现,表明其在仅使用 1,000 个样本的情况下,性能接近甚至超过了一些使用更多样本的模型。 

预算强制技术

为了控制测试时的计算量,研究团队开发了“预算强制”技术。该技术通过在测试阶段强制终止或延长模型的思考过程来实现。具体而言,当模型的推理链长度超过预设的上限时,会强制结束推理过程;而当需要更多计算量时,会通过在推理链中插入“Wait”来延长推理时间。这种方法促使模型在测试阶段进行更深入的思考,从而提高推理的准确性和可靠性。

图3展示了预算强制(Budget Forcing)技术的一个示例。说明了当模型试图结束推理时,通过附加“Wait”字符串,模型会继续思考并可能修正错误的推理步骤,从而得出正确的答案。 

模型训练与性能评估

研究团队使用Qwen2.5-32B-Instruct大模型在s1K数据集上进行了监督微调(SFT),整个过程仅需26分钟,使用16个NVIDIA H100 GPU即可完成。微调后的模型s1-32B在多个复杂推理基准测试中表现出色,例如在AIME24(美国数学邀请赛)中,s1-32B的准确率从50%提升到了57%,显著超过了OpenAI的o1-preview模型。

测试时扩展方法的对比

研究团队还对不同的测试时扩展方法进行了对比。研究团队将测试时扩展方法分为两类:序列扩展(后续计算依赖于先前的计算结果)和并行扩展(计算独立运行)。通过实验验证,预算强制技术在序列扩展中表现出了良好的可扩展性和性能提升。例如,表3展示了不同测试时扩展方法在AIME24任务上的性能对比,其中预算强制技术(BF)在控制性、扩展性和性能方面均表现最佳。

消融实验

为了验证了数据选择和测试时扩展方法的有效性,研究团队进行了消融实验。例如,表4展示了预算强制技术在不同扩展策略下的性能表现,结果表明“Wait”字符串在扩展性能方面表现最佳。此外,论文还对比了随机选择、选择最长推理轨迹的样本以及仅选择最大化多样性的样本等不同数据选择策略,发现将难度、多样性和质量测量共同纳入选择算法非常重要。

结论与展望

论文提出的方法不仅在性能上与OpenAI的o1-preview模型相当,而且在样本效率上具有明显优势。研究团队通过严格的实验验证了该方法的有效性,并展示了其在多个复杂推理任务中的应用潜力。未来的研究可以进一步探索如何优化测试时扩展的方法,例如通过改进预算强制技术或结合强化学习来进一步提升模型的推理能力。

论文链接:https://arxiv.org/pdf/2501.19393

项目链接:https://github.com/simplescaling/s1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

人工智能大模型讲师培训咨询叶梓

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值