📖标题:O1 Replication Journey: A Strategic Progress Report – Part 1
🌐来源:arXiv, 2410.18982
🌟摘要
🔸本文介绍了一种开创性的人工智能研究方法,体现在我们的O1复制之旅中。为了回应OpenAI开创性的O1模型的宣布,我们开始了一项透明、实时的探索,以复制其功能,同时重新构想进行和交流人工智能研究的过程。我们的方法论解决了现代人工智能研究中的关键挑战,包括长期团队项目的孤立性、信息共享的延迟以及对不同贡献的缺乏认可。通过全面、实时地记录我们的复制工作,包括成功和失败,我们的目标是促进开放科学,加快集体进步,并为人工智能驱动的科学发现奠定基础。我们的研究进展报告与传统的研究论文有很大不同,在整个研究过程中提供了持续的更新、全过程的透明度和积极的社区参与。
🔸从技术上讲,我们提出了“旅程学习”范式,鼓励模型不仅学习捷径,还要学习完整的探索过程,包括试错、反思和回溯。仅需327个训练样本,且无需任何额外技巧,旅程学习在MATH数据集上的表现比传统监督学习高出8%以上,展示了其极其强大的潜力。我们认为这是我们成功解码的O1技术中最关键的组成部分。我们共享宝贵的资源,包括技术假设和见解、认知探索图、定制开发的工具等https://github.com/GAIR-NLP/O1-Journey.
🛎️文章简介
🔸研究问题:为了响应OpenAI突破性O1模型的发布,需要有透明、实时的探索,以复制其功能来促进行业进步。
🔸主要贡献:论文介绍了在复制O1模型的过程中所遇到的挑战、解决方案以及取得的进展,还详细讨论了O1模型的思维结构、长思维的构建、奖励模型的开发等方面。
🧲相关工作
🔸过程奖励模型(PRM):对LLM的回答提供细粒度的评估,涉及使用具有高级提示技术的专有模型,或使用步骤级监督数据进行训练,后者需要高质量标注数据,可以是强化学习将推理过程建模为马尔可夫决策过程。
🔸思维链(CoT):研究表明,提供中间推理步骤可以提高算术和常识推理等复杂任务的表现,还能在检测到错误后逐步调整其响应,一种理论解释是串行计算增强复杂性。
🔸推理时间缩放:最近的研究表明,与增加模型参数或训练数据量等传统缩放方法相比,缩放推理时间可以更有效地提高模型性能,优点包括资源效率、适应性计算和逐步的迭代细化改进。
🔸搜索到思考:从传统的基于搜索的方法到隐式推理方法的转变,利用模型的内部隐藏状态,绕过了生成显式推理步骤的需要。
🔸LLM自我改进:以最少的人为干预从自己的输出中学习来提高模型性能,通常涉及对模型生成的高质量输出进行监督微调或偏好优化。
🌟O1的思考是什么?
🔸迭代问题解决:该模型从定义函数开始,逐步探索相关表达式,将复杂的方程分解为更简单的组件,体现了结构化和有条理的方法。
🔸关键思想指标:使用“因此”等术语来得出结论,使用“替代”来探索不同的路径,“等待”来进行反思,以及“让我计算”来过渡到计算,这些术语突出了模型的推理阶段。
🔸递归和反思方法:模型经常重新评估和验证中间结果,使用递归结构来确保一致性,这在严格的数学推理中是典型的。
🔸假设探索:模型测试不同的假设,在收集更多信息时调整其方法,展示推理过程的灵活性。
🔸结论与验证:模型求解方程并验证结果,强调在完成之前验证结论的重要性。
🌟长思考如何发挥作用?
🔸旅程学习:目前只能提出假设,与传统的快捷学习不同,旅程学习允许模型探索整个决策轨迹,模仿人类解决问题的过程。
🔸模拟人类认知过程:旅程学习包含试错、反思和调整,这增强了可解释性。
🔸自我纠正:通过经历正确和错误的路径,该模型开发了强大的错误处理能力,增强了其对新挑战的适应能力。
🔸类人推理:以旅程学习为基础的漫长思维过程不仅仅是延长计算时间,而是代表了一种彻底的、类人的推理探索。
🌟构建长思考的4个尝试
🔸使用LLM和奖励进行树搜索
🔸提议-批判循环尝试
🔸多智能体方法
🔸完整的人类思维过程注释
🌟如何构建奖励模型?
🔸定义粒度:我们的目标不是仅仅关注最终结果,而是增强LLM在反思、回溯和相关认知过程方面的能力。因此,我们将评估粒度定义在步骤级别。
🌟何构建策略上的推理树?
🔸策略模型和步骤分段构建:将数学问题的解决方案转化为步骤明确的形式,将答案分为多行,每行以行号开头,并在行内包含推理。
🔸奖励模型和修剪:上面提出的树生成算法的计算量很大,使用奖励模型来修剪错误的推理步骤,提高运行效率。
🌟如何从推理树中导出长思考?
🔸首先从推理树构造捷径,其中仅包括正确答案和有效的中间步骤。
🔸为了导出长的想法,我们采用深度优先搜索(DFS)遍历树,允许进行有意义的试错探索,同时避免过度探索不正确的路径。
🔸随着生成的遍历路径和附加到错误节点的推理,我们通过连接路径中的所有步骤来构建一个长思考草案。
🌟如何训练模型?
🔸监督微调(SFT):①捷径学习,使用仅包括正确的中间步骤和最终正确答案的响应来微调模型 ②旅程学习,用构建的长思考进一步微调初始阶段的SFT模型,旨在增强模型检测错误、合并反射、执行更正和执行回溯的能力。
🔸直接偏好学习(DPO):采样正确和错误的答案,在偏好对的比较中学习。
💡个人观点
论文的核心是提出了“旅程学习”这一新的AI范式,让模型能够在探索、决策和反思中进行推理。
🧩附录