上交：LLM旅程学习通向OpenAI的O1_o1replication journey: a strategic progress report-CSDN博客

本文链接：https://blog.csdn.net/weixin_46739757/article/details/144242390

在这里插入图片描述

📖标题：O1 Replication Journey: A Strategic Progress Report – Part 1
🌐来源：arXiv, 2410.18982

🌟摘要

🔸本文介绍了一种开创性的人工智能研究方法，体现在我们的O1复制之旅中。为了回应OpenAI开创性的O1模型的宣布，我们开始了一项透明、实时的探索，以复制其功能，同时重新构想进行和交流人工智能研究的过程。我们的方法论解决了现代人工智能研究中的关键挑战，包括长期团队项目的孤立性、信息共享的延迟以及对不同贡献的缺乏认可。通过全面、实时地记录我们的复制工作，包括成功和失败，我们的目标是促进开放科学，加快集体进步，并为人工智能驱动的科学发现奠定基础。我们的研究进展报告与传统的研究论文有很大不同，在整个研究过程中提供了持续的更新、全过程的透明度和积极的社区参与。
🔸从技术上讲，我们提出了“旅程学习”范式，鼓励模型不仅学习捷径，还要学习完整的探索过程，包括试错、反思和回溯。仅需327个训练样本，且无需任何额外技巧，旅程学习在MATH数据集上的表现比传统监督学习高出8%以上，展示了其极其强大的潜力。我们认为这是我们成功解码的O1技术中最关键的组成部分。我们共享宝贵的资源，包括技术假设和见解、认知探索图、定制开发的工具等https://github.com/GAIR-NLP/O1-Journey.

🛎️文章简介

🔸研究问题：为了响应OpenAI突破性O1模型的发布，需要有透明、实时的探索，以复制其功能来促进行业进步。
🔸主要贡献：论文介绍了在复制O1模型的过程中所遇到的挑战、解决方案以及取得的进展，还详细讨论了O1模型的思维结构、长思维的构建、奖励模型的开发等方面。

🧲相关工作

🔸过程奖励模型（PRM）：对LLM的回答提供细粒度的评估，涉及使用具有高级提示技术的专有模型，或使用步骤级监督数据进行训练，后者需要高质量标注数据，可以是强化学习将推理过程建模为马尔可夫决策过程。
🔸思维链（CoT）：研究表明，提供中间推理步骤可以提高算术和常识推理等复杂任务的表现，还能在检测到错误后逐步调整其响应，一种理论解释是串行计算增强复杂性。
🔸推理时间缩放：最近的研究表明，与增加模型参数或训练数据量等传统缩放方法相比，缩放推理时间可以更有效地提高模型性能，优点包括资源效率、适应性计算和逐步的迭代细化改进。
🔸搜索到思考：从传统的基于搜索的方法到隐式推理方法的转变，利用模型的内部隐藏状态，绕过了生成显式推理步骤的需要。
🔸LLM自我改进：以最少的人为干预从自己的输出中学习来提高模型性能，通常涉及对模型生成的高质量输出进行监督微调或偏好优化。

🌟O1的思考是什么？

🔸迭代问题解决：该模型从定义函数开始，逐步探索相关表达式，将复杂的方程分解为更简单的组件，体现了结构化和有条理的方法。
🔸关键思想指标：使用“因此”等术语来得出结论，使用“替代”来探索不同的路径，“等待”来进行反思，以及“让我计算”来过渡到计算，这些术语突出了模型的推理阶段。
🔸递归和反思方法：模型经常重新评估和验证中间结果，使用递归结构来确保一致性，这在严格的数学推理中是典型的。
🔸假设探索：模型测试不同的假设，在收集更多信息时调整其方法，展示推理过程的灵活性。
🔸结论与验证：模型求解方程并验证结果，强调在完成之前验证结论的重要性。

🌟长思考如何发挥作用？

🔸旅程学习：目前只能提出假设，与传统的快捷学习不同，旅程学习允许模型探索整个决策轨迹，模仿人类解决问题的过程。
🔸模拟人类认知过程：旅程学习包含试错、反思和调整，这增强了可解释性。
🔸自我纠正：通过经历正确和错误的路径，该模型开发了强大的错误处理能力，增强了其对新挑战的适应能力。
🔸类人推理：以旅程学习为基础的漫长思维过程不仅仅是延长计算时间，而是代表了一种彻底的、类人的推理探索。