人大：LLM三阶段训练实现慢思考

最新推荐文章于 2025-04-11 17:11:29 发布

大模型任我行

最新推荐文章于 2025-04-11 17:11:29 发布

阅读量1.3k

点赞数 32

分类专栏：大模型-模型训练大模型-推理优化文章标签：人工智能自然语言处理语言模型论文笔记

本文链接：https://blog.csdn.net/weixin_46739757/article/details/144742795

版权

大模型-模型训练同时被 2 个专栏收录

239 篇文章

订阅专栏

大模型-推理优化

113 篇文章

订阅专栏

在这里插入图片描述

📖标题：Imitate, Explore, and Self-Improve: A Reproduction Report on Slow-thinking Reasoning Systems
🌐来源：arXiv, 2412.09413

🌟摘要

🔸最近，慢思维推理系统，如o1，在解决复杂推理任务方面表现出了显著的能力。这些系统在响应查询之前通常会进行一个扩展的思维过程，使它们能够生成更彻底、准确和合理的解决方案。这些系统主要由行业开发和维护，其核心技术未公开披露。作为回应，研究界越来越多的研究旨在探索这些强大推理系统背后的技术基础。
🔸在这些先前工作的基础上，本文提出了一份关于实现类o1推理系统的复制报告。我们引入了一个“模仿、探索和自我改进”的框架，作为我们训练推理模型的主要技术方法。在初始阶段，我们使用提取的长形式思维数据来微调推理模型，使其能够调用缓慢的思维模式。然后，鼓励该模型通过生成多个展开来探索具有挑战性的问题，这可以产生越来越多的高质量轨迹，从而得到正确的答案。此外，该模型通过迭代改进其训练数据集来进行自我改进。
🔸为了验证这种方法的有效性，我们在三个具有挑战性的基准上进行了广泛的实验。实验结果表明，与这些基准上的行业级推理系统相比，我们的方法取得了具有竞争力的性能。我们在 https://github.com/RUCAIBox/Slow_Thinking_with_LLMs 发布我们的资源。

🛎️文章简介

🔸研究问题：如何构建和改进类似于o1的慢思考推理系统，以提高其在复杂推理任务中的表现？
🔸主要贡献：论文提出了一个三阶段的训练方法（模仿、探索和自我改进），并通过实验验证了其在复杂推理任务中的有效性。

🧲相关工作

🔸研究界一直在积极探索慢思考推理系统，但都局限于特定领域（例如数学领域）或使用相对较弱的基础模型开发，使得实现的系统明显不如o1。
🔸DeepSeek和Qwen发布了类o1系统的API或检查点，使我们能够仔细检查实际的思维过程，而不是o1中的总结版本，这对于获取用于初步尝试的初始标记数据尤其重要。
🔸凭经验发现，用少量的长思维链数据对LLM进行微调可以显着提高其在复杂推理任务上的表现，推测o1可能会实现一个包含内部思想和最终解决方案的一次性解码过程。

📝重点思路

🔸模仿阶段：通过从现有的o1-like系统（如R1和QwQ）中提取长链思维数据，构建一个用于模仿学习的数据集。然后，使用这些数据对基础模型进行监督微调（SFT），以使其能够生成类似于长链思维的推理过程。
🔸探索阶段：通过让模型自主探索难题，生成新的正确轨迹（包括思维过程和解决方案），并将这些轨迹添加到训练数据中，以逐步改进模型的推理能力。
🔸自我改进阶段：通过迭代训练，使用改进后的模型生成更高质量的训练数据，并结合监督微调和直接偏好优化（DPO）等方法，进一步提升模型的推理能力。

🔎分析总结

🔸模仿学习的有效性：通过使用从o1-like系统中提取的长链思维数据进行监督微调，模型在复杂推理任务中的表现显著提升。
🔸探索和自我改进的效果：通过让模型自主探索难题并生成新的训练数据，模型的推理能力得到了进一步的提升。特别是在使用3900个示例进行蒸馏训练后，模型的表现接近了一些行业级系统。
🔸慢思考特点：与快速思考模式下生成的正式响应不同，慢思考模式下的思考过程通常以灵活、非正式的方式表达，有助于引导模型找到正确的解决方案路径。
🔸数据混合的影响：在训练数据中混合不同领域和难度级别的数据，能够有效提升模型的性能。特别是在数学领域的难题上，模型的表现尤为突出。
🔸迭代训练的局限性：尽管迭代训练在初始阶段能够显著提升模型性能，但随着迭代次数的增加，性能提升逐渐有限，甚至在某些基准测试中出现了波动。