浅析OpenAI o1

「后训练」时代强化学习新范式

OpenAI o1 在数学、代码、长程规划等问题取得显著的进步。一部分业内人士分析其原因是由于构建足够庞大的逻辑数据集 <问题,明确的正确答案> ,再加上类似 AlphaGo 中 MCTS 和 RL 的方法直接搜索,只要提供足够的计算量用于搜索,总可以搜到最后的正确路径。然而,这样只是建立起问题和答案之间的更好的联系,如何泛化到更复杂的问题场景,技术远不止这么简单。

AlphaGo 是强化学习在围棋领域中的一大成功,成功击败了当时的世界冠军。早在去年,Deepmind 的 CEO Demis Hassabis 便强调用 Tree Search 来增强模型的推理能力。根据相关人士推测,o1 的模型训练数据截止到去年十月份,而有关 Q * 的爆料大约是去年 11 月,这似乎展示 o1 的训练中也用到了 TreeSearch 的技巧。

实际上,OpenAI o1 运用的技术关键还是在于强化学习的搜索与学习机制,基于 LLM 已有的推理能力,迭代式的 Bootstrap 模型产生合理推理过程(Rationales) 的能力,并将 Rationales 融入到训练过程内,让模型学会进行推理,而后再运用足够强大的计算量实现 Post-Training 阶段的 Scaling。类似于 STaR [1] 的扩展版本。

注意这里合理推理过程并不只是对问题的拆解和分步作答,还有对于为什么如此作答的分析和思考。

技术要点有三:

  1. 后训练扩展律 Post-Training Scaling Laws 已经出现,并且 Post-Training Scaling Laws 为上述技术路径的成功提供了有力支持。
  2. 模型学习的是产生合理推理的过程,MCTS 在其中的作用是诱导合理推理过程的产生或构建相应的偏序对形成细粒度奖励信号,而非直接搜索过程和最终答案。
  3. 模型的 BootStrap 有助于构建新的高质量数据,并且新的 Rationales 数据促进了模型进一步提升能力。

LLM中的MCTS(Monte Carlo Tree Search)和 RL(Reinforcement Learning)

在大规模语言模型(LLM,Large Language Models)研究中,MCTS(Monte Carlo TreeSearch)、RL(Reinforcement Learning,强化学习)、SFT(Supervised Fine-Tuning,监督微调)和 RLHF(Reinforcement Learning with Human Feedback,带有人类反馈的强化学习)是四种常见的技术,它们在训练、优化和提升模型能力中起到不同的作用。下面是它们的定义、作用、联系与区别,以及各自的优势和劣势的详细说明。

MCTS(蒙特卡洛树搜索) 作用:

MCTS是一种基于搜索的决策算法,主要用于优化决策路径,它在LLM的应用中可以帮助模型在生成过程中找到最优的决策路径。
在LLM的生成式任务中(如对话系统),MCTS可通过树形结构的搜索,评估多个可能的生成序列或决策路径,从而选择出最优的响应。这类似于在博弈论中的应用。
优势:
MCTS可以有效地在大规模搜索空间中找到最优解,即便在无模型或不完整模型下也能通过模拟找到较优的解。
在决策路径复杂的任务中,如对话、文本生成等,MCTS能够帮助选择出更优质的生成结果。
劣势:
MCTS依赖于大量的模拟运行,计算成本高,尤其是在LLM中搜索路径非常庞大的情况下。
它对问题的结构有一定的假设,可能不适用于所有自然语言生成任务。

RL(强化学习) 作用:

RL的基本思想是通过与环境互动,模型通过获得奖励和惩罚的反馈,学习如何进行最优决策。在LLM研究中,强化学习常用于帮助模型优化生成策略。
例如,通过RL,语言模型可以逐渐学会生成符合某个目标的文本(如提高对话的连贯性、回答的准确性等),基于从环境或任务中获得的反馈进行调整。
优势:
RL允许模型在真实任务中不断优化策略,而不是依赖固定的数据集,具备更好的适应性。
可以优化某些难以通过明确规则进行评估的目标,如对话自然度、用户满意度等。
劣势:
RL的训练过程较慢且容易出现不稳定的情况,尤其是在奖励信号稀疏或噪声较大的情况下。
需要设计合适的奖励机制,不然模型可能学到次优策略或过拟合某些奖励。

SFT(监督微调) 作用:

SFT是通过有标注的数据对预训练语言模型进行微调,以进一步提升模型的性能。SFT通常是训练LLM的第一步,即模型已经通过无监督学习预训练,然后通过SFT利用标注数据进行有监督学习。
例如,ChatGPT和其他对话模型会先经过SFT,使用人类编写的大量问答、对话数据对模型进行精细调整。 优势:

通过标注数据的监督学习,模型能学到更符合预期的人类行为或生成结果。 训练相对稳定,因为监督学习的目标明确,损失函数清晰。 劣势:

SFT依赖于高质量且大量的标注数据,标注成本高且不容易扩展到所有场景。
单独的SFT无法解决许多复杂、开放的问题,如用户的主观偏好或任务中的复杂决策。

RLHF(带有人类反馈的强化学习) 作用:

RLHF结合了人类反馈与强化学习,通常用于对SFT后的模型进行进一步优化。在RLHF中,模型生成的内容会得到人类反馈(如打分或偏好对比),然后通过这些反馈来优化模型生成策略。
例如,在OpenAI的ChatGPT训练过程中,人类会评估模型生成的不同回答,然后这些反馈用于训练奖励模型,该模型进一步用于强化学习。
优势:
RLHF能够引入人类的主观偏好,将机器生成的结果优化得更符合人类期待。
比单纯的SFT具有更高的灵活性,因为人类的反馈可以更广泛地定义奖励函数,覆盖更多复杂场景。
劣势:
人类反馈的获取和标注成本高,且需要大量的人工参与。 RLHF的强化学习部分依旧面临稳定性和效率的问题,需要精心设计的训练流程。

联系与区别

MCTS和RL:
MCTS是一种基于搜索的决策算法,而RL是一种通过交互式反馈学习策略的过程。它们的区别在于,MCTS更多依赖模拟未来的可能性,而RL直接通过与环境交互获得即时反馈。
在LLM的应用中,MCTS可以帮助模型优化决策路径,RL则用于不断调整模型策略。
SFT和RLHF:
SFT是通过已有的标注数据对模型进行训练,而RLHF则利用人类反馈进行强化学习,是SFT的后续优化步骤。
它们的联系在于RLHF通常在SFT之后使用,先利用已有标注数据微调模型,再通过RLHF进一步优化符合人类偏好的输出。
MCTS与RLHF的结合:
在一些场景下,MCTS可以结合RLHF使用,通过树搜索找到最优的策略路径,而RLHF则用人类反馈优化这些路径的选择。

优劣势对比
MCTS:
优势:能在大规模搜索空间中找到最优解,特别适用于复杂的决策任务。 劣势:计算量大,适用场景有限。
RL:
优势:通过交互式反馈学习不断优化模型,适应性强。 劣势:训练不稳定,设计奖励机制困难。
SFT:
优势:训练稳定,依赖标注数据,微调效果明显。 劣势:数据依赖性强,扩展性差。
RLHF:
优势:结合人类偏好,优化生成结果,灵活性高。 劣势:人类反馈成本高,强化学习训练复杂。
··········································································································································································································
总体而言,MCTS、RL、SFT和RLHF在LLM的研究和应用中各有作用,并常常相辅相成:SFT打好基础,RLHF进一步优化人机交互体验,而MCTS与RL帮助模型在复杂生成任务中做出最优决策。

OpenAI o1 的发布是 Post-Training Scaling Laws 的强力体现

北京时间 9 月 13 日午夜,OpenAI 发布 o1 系列模型,旨在专门解决难题。OpenAI o1 在数学、 代码、长程规划等问题上取得了显著提升,而背后的成功最重要离不开后训练阶段 (Post-Training Stage) 中强化学习训练和推理阶段思考计算量的增大。新的扩展律 —— 后训练扩展律(Post-Training Scaling Laws) 已经出现,并可能引发社区对于算力分配、后训练能力的重新思考。而帮助 o1 取得如此性能飞跃的,是 Post-Training 阶段 RL 计算量的 Scaling测试推理阶段思考时间的 Scaling

在这里插入图片描述

后训练扩展律 Post-Training Scaling Law

随着模型尺寸逐渐增大,预训练阶段参数 Scaling Up 带来的边际收益开始递减,如果想要深度提升模型推理能力和长程问题能力,基于强化学习的 Post-Training 将会成为下一个突破点。早在 2018 年 Ilya 在 MIT 的客座讲座上,他便分享过自己对于通过 RL 和 Self-play 走向 AGI 的信心。
OpenAI 探索 Parameter Scaling Law 之外的 Scaling Laws 也并非空穴来风。在 2021 年,他们便在 Training Verifiers to Solve Math Word Problems [6] 中提到,自回归模型在数学推理问题上很难进步的一点在于没有办法进行回答的自主修正,如果仅是依靠生成式方法和扩大参数规模,那么在数学推理任务上带来的收益不会太大。所以需要寻找额外的 Scaling Laws。

When generating a solution, autoregressive models have no mechanism to correct their own errors. Solutions that veer off-course quickly become unrecoverable.
If we rely purely on generative methods and extrapolate from current trends, we will require an exorbitant parameter count to achieve even moderate performance on distributions as challenging as the MATH dataset.
This evidence strongly motivates the search for methods with more favorable scaling laws.

现在看来,RL 带来了 LLM 训练的范式转变,也带来了新的 Scaling Laws,即 Post-Training Scaling Laws。

在 Post-Training Scaling Laws 下,训练阶段的计算量不再只是和参数量的上升有关,同时也会包含 RL 探索时 LLM Inference 的计算量。与此同时,测试阶段模型推理和反思的计算量也会影响模型最终的表现。在 DeepMind 最近的文章 [5] 中,也讨论了这种范式的转变。

Post-train 虽然参数没变,但是在训练算力上仍然会倍数增长;推理上也会随着模型 “思考能力提高”,单次算力增长。是否有足够的算力做 Post-Training 似乎已经成为能不能提升推理性能的入场券。

OpenAI 发现也证明了这一点:随着更多的强化学习(训练时计算)和更多的思考时间(测试时计算), o1 的性能也在不断提升,并且 Post-Training Scaling Laws 还没有被完全探索。

在这里插入图片描述

Sutton 在《Bitter Lesson》中已经指出,只有两种技术可以随着算力增长,学习和搜索。正如英伟达科学家 Jim Fan 所说,也许模型参数大部分是用于存储知识和记忆。随着参数扩展律的边际效益逐渐递减,现在是时候将更多的算力转向 Post-Training 阶段和推理阶段。
在这里插入图片描述

OpenAI 的成功,关键在于合理使用强化学习的探索

仅靠 MCTS 是远不足够的,仅靠 MCTS 无法让模型学会思考问题的关联,隐式自动化 CoT 的背后,是模型真正学会了合理的中间推理过程 Rationales。
当人们写作或说话时,常常会停下来思考。然而,大语言模型在通过 Next Token Prediction 生成回答时,更像是一种 “快思考” 过程。由于缺乏详细的中间推理步骤,模型一开始可能会犯错,而这些错误可能会传播,最终导致生成的答案也是错误的。
为了优化这一过程,产生了一系列方法,其中包括在 Token 级别或子句级别提供奖励信号,帮助模型调整生成的回答。这些方法如蒙特卡洛树搜索(MCTS),将输出建模为一系列节点,这些节点可以是 Token 级别或句子级别。例如:

  1. Token 级别的节点:每个节点对应生成序列中的一个 Token。通过 MCTS,模型可以探索不同的 Token 序列,最终生成更连贯的响应。
  2. 句子级别的节点:在复杂推理任务中,每个节点可以代表一个完整的句子或推理步骤,帮助模型更好地处理多步推理任务。

另一种方式是通过**思维链(Chain of Thought, CoT)**优化模型输出。CoT 通过分步推理的方式,要求模型在生成最终答案之前,先生成一系列中间推理步骤。这种 “思考链” 的生成过程有助于增强模型的推理能力,尤其在数学和代码生成等任务中表现出色。
然而,CoT 虽然能够生成中间步骤,但并未教会模型如何从内部深入思考问题的关联。特别是对于尤其复杂且需要多步推理规划的任务,这样的合理的中间 CoT 推理过程(Rationales) 更为重要。

类似的思路在 STaR [1] 和 Quiet-STaR [7] 中有所体现。

STaR 的核心思路是利用 LLM 已有的推理能力,迭代式的 Bootstrap 模型产生合理推理过程(Rationales) 的能力,并将 Rationales 融入到训练过程内,让模型学会进行推理。在这里插入图片描述

就目前来看,STaR 和 Quiet-STaR 是最接近 o1 的技术路线和模型表现效果的,但是如果想要进一步达到 OpenAI o1 的效果,还需要克服很多问题。

例如如下两个问题:

  1. Quiet-STaR 在生成内部思维的过程中,每个 Token 均会生成下一步的对应的思考过程,导致生成了大量额外的 tokens,这也导致了计算资源需求大幅增加。实际上模型需要学会动态的调整 Thinking Token。
  2. 对于更复杂的任务和长程问题, 如何针对内部思考过程提供细粒度的奖励信号?仅仅通过比较合理推理的回答和正确回答是否一致(或者 Predicted Distribution 的相似度)是不够的。

这不禁引发我们对于 OpenAI o1 的技术路径的思考。OpenAI o1 应当也是沿着 STaR 和 Quiet-STaR 类似的路线,优化模型内部生成合理推理(即隐式的 CoT) 的过程。而 Post-Training 阶段 RL 的训练阶段主要算力也应当是放在了对于内部推理过程的优化上。

那如何构造隐式 CoT 的优化过程的 Reward?

可以通过不同温度采样出来的推理路径构建偏序,也可能是 MCTS 搜出来的正误参半的不同推理过程形成偏序。这点和先前的 MCTS 用法会有所不同,MCTS 节点上不再是最终生成答案中的某个 token 或某步,而是隐式推理过程中的每一步。
同时,为了提供更加细粒度的反馈和指导,需要引入过程性的奖励,而针对模型自身已经难以提供合理推理过程的复杂问题,通过引入额外的足够强的 Critic Model 来解决这个问题。
最终通过强化学习,o1 学会了优化其思维链,并不断改进其使用的策略。它学会识别并纠正错误,学会将复杂的步骤分解为更简单的步骤,并在当前方法无效时尝试不同的解决方案。这个过程大幅提高了模型的推理能力。
同时,在 OpenAI 披露的细节中,生成过程中的 Reasoning Token 是动态引入的,这也尽可能的减少了不必要的思考带来的额外算力损耗。

在这里插入图片描述
可以说,OpenAI o1 已不再是即时给出答案的模型,而是能够先进行深入思考。这可以类比为 o1 正在从依赖系统 1 思维(即快速、自动、直觉、易出错的思维模式),逐步进化为采用系统 2 思维(即缓慢、刻意、有意识且更可靠的推理过程)。这一转变赋予了 o1 解决之前无法应对的复杂问题的能力,而这一切的实现,根源于训练后阶段中遵循的扩展规律(Scaling Laws)的应用与优化。

更有意思的是,我们可以构建一个数据飞轮:通过 o1 模型的推理过程自动生成大量高质量的训练数据,这些数据可以被反复用于进一步提升模型性能,形成一个自我强化的良性循环。

在这一过程中,模型的自举能力(Bootstrap)得到进一步扩展,不仅加速了性能提升的进程,更有望逐步推动向超级智能(Superintelligence)的迈进。

总结一下:

  1. RL + “隐式思维链”:o1 模型使用 RL 进行训练,通过引入动态的 Reasoning Token,从而启发 “隐式思维链” 来 “思考” 问题,思考时间越长,推理能力越强!
  2. 推理时间 = 新的扩展维度:o1 模型的发布,意味着 AI 能力的提升不再局限于预训练阶段,还可以通过在 Post-Training 阶段中提升 RL 训练的探索时间和增加模型推理思考时间来实现性能提升,即 Post-Training Scaling Laws。
  3. 数据飞轮 + Bootstrap -> SuperIntelligence : 基于自我反思的模型将能够实现自举 Bootstrap,并提升大大提升模型对于未见过的复杂问题的解决能力,模型的推理过程形成大量高质量数据的飞轮,并最终有可能向 SuperIntelligence 更进一步。

评论模型 Critic Model

随着任务问题的逐步复杂,仅仅依靠模型的自身推理能力可能无法提供有效的奖励信号。这使得对于模型内部的复杂推理过程的监督变成了一个可扩展监督问题。

具体来说,OpenAI o1 隐式思维链的训练过程中应当也引入了 Critic 的方法。针对复杂推理的问题,模型自身已经难以提供合理推理过程,因此迫切需要引入额外的足够强的 Critic Model 来提供精准的反馈

具体来说,通过将推理过程进行过程分解,并且利用额外的更强更专项的 Critic Model,可以将推理过程的监督扩展到更复杂的问题上。这也一定程度缓解了仅仅是通过推理过程能否导出正确结果的来确定奖励信号的稀疏问题。

这个思路早在先前也有所探索。

前阵子 OpenAI 发布的 CriticGPT [2], 通过 RLHF 方法训练模型能够为真实世界中的代码任务书写自然语言反馈,并成功泛化到 OOD 的分布上。这种反馈可以用来帮助人类进行更准确的评价,从而实现对于复杂输出的有效奖励反馈。先前 OpenAI 也深入探究过自我批判方法和 Critic Model 辅助人类评判 在文本总结任务上的可行性 [3]。
在这里插入图片描述
从可扩展监督的角度来说,这条路是必然的。随着任务变得愈发复杂(如数学代码推理),人类反馈者很难对模型的回答进行有效的评价,也就无法提供有效的偏好或者奖励信号,如何在更复杂的任务上对齐更强大的模型,是可扩展监督的重要问题。

对于 Critic 这类方法,关键的挑战在于如何将 Critic 的能力泛化到更加复杂的任务,例如对于代码数学或者长文本输出,Critic Model 需要考虑输出各部分之间的依赖关系和逻辑推理问题,因此对于模型自身的推理能力要求更高。

用于评论批判的模型(Critic Model)同样也可能会存在 Generator-Discriminator-Critique (GDC) gaps ,即模型可能不会指出他们所发现的错误,这一差距在 CriticGPT 这个量级尺寸的模型上是否被缩减目前还不得而知。

可以说这一系列工作是一脉相承的,基于评价比生成更简单的原则,Critic 的思路是可扩展监督一条有希望的技术路径,并且应该也被用在了辅助 o1 的训练当中。

大模型的天花板在哪里?

自从 2022 年 ChatGPT 面世以来,大模型经过了近两年的迭代。目前,无论是工业界还是学术界,都在探索大模型的上限。在 Scaling Law 的支持下,大模型持续增加预训练的数据量和模型参数。然而,随着硬件集群的限制和成本的约束,模型参数的增长已逐渐停滞。在 OpenAI o1,普遍认为要进一步提升大模型的能力,主要有以下两条技术路线:

  1. 通过合成数据进一步扩展数据和参数规模。一些模型使用了大量的公开数据进行训练,随着数据量的增加,模型性能仍在提升。然而,随着时间的推移,数据稀缺将逐渐成为增加更多数据的挑战。一些解决方案包括生成合成训练数据,例如 NVIDIA 发布了 Nemotron-4 340B 可以帮助在无法获取大量、多样的标注数据集的情况下生成合成训练数据,并在一定程度上解决数据饥荒的问题;OpenAI o1 也是基于这样的思路,提供了构建合成数据飞轮的机会。
  2. 通过模态混合和模态穿透的方法,借助其他模态增强模型能力。相比于公开的文本数据,图像、视频、音频等数据的总量更大,且包含的信息量也更丰富。一条可行的技术路线是有效增加模型处理的模态数量,不仅让模型完成不限于文本模态的任务,更重要的是,通过模态穿透和模型融合,在复杂推理能力上更上一层楼,即实现模态上的 Scaling Law。在这方面前景广阔:文本的序列化信息相比于图像和视频所包含的复杂信息要少得多,更丰富的数据能够有效扩充模型推理空间的丰富度;
  3. 推理能力和模型的指令跟随能力呈现出分离关系。在 OpenAI o1 表现中,尽管在数学、物理等复杂任务上的推理能力有了大幅提升,但在一些语言生成任务上,并没有体现出更大的进步。在 System Card 和 OpenAI 研究人员的访谈中也提到,OpenAI o1 专项于推理能力,而并不能作为一个很好的 Agent 和 Assistant。这种推理能力和指令跟随能力的分离在模型强大到一定程度才出现,甚至是互斥的。但对于构建通用智能体来说,如何 balance 二者关系会成为一个核心问题。

未来方向的展望

强化学习的重要性

OpenAI o1 的发布将重塑行业对于算力分配的认知,标志着 RL 下 Post-Training Scaling Law 的时代正式到来。OpenAI 研究员 Jason Wei 也表示,o1 模型背后的核心不只是通过 Prompt 提示词完成 CoT,而是引入 RL 训练模型,从而使模型更好地执行链式思考。隐式思维链思考给 o1 带来的巨大性能提升,也将启发行业在模型规模达到一定量级后,更多的将算力投入到 Post-Training 阶段的 RL 训练和推理阶段模型的思考过程当中。强化学习先驱 Rich Sutton 在 “The Bitter Lesson” 中说:

  1. One thing that should be learned from the bitter lesson is the great power of general purpose methods, of methods that continue to scale with increased computation even as the available computation becomes very great.
  2. The two methods that seem to scale arbitrarily in this way are search and learning.
  3. We want AI agents that can discover like we can, not which contain what we have discovered.

我们希望 AI 代理能够像我们一样进行探索,而不是仅仅包含我们已经发现的知识(通过 Pre-training 来让模型拟合海量的数据分布,并期待模型具备一定的泛化性)。只有搜索和学习这两种学习范式能够随着计算能力的增长无限扩展,强化学习作为这两种学习范式的载体,如何能够在实现可扩展的 RL 学习(Scalable RL Learning)和强化学习扩展法则(RL Scaling Law),将成为进一步突破大模型性能上限的关键途径。

Test-Time 算法设计的重要性

从技术上来看:如何更好的启发模型的内部思考过程?不同的思考方式和 Self-Critique 反馈方式带来的成效不同 ;Post-Training 阶段如何通过 RL 手段帮助模型学会内在的推理?Verifier \ Critic Model 如何和模型训练方法如 RL-Self Play 、MCTS 进行有效的耦合,实现真正的可扩展监督(Scalable Oversight);模型思考过程的上界在哪,Test-Time Optimization 的边界;这些都将是不局限于利用人类偏好数据,利用强化学习进行 “微” 调,随着业界在 pre-train 阶段技术的成熟,以及现有数据也即将匮乏,大模型的训练将从 “模仿” 到 “探索” 的转变,在 Llama 3.1 的技术报告中谈到,在 Post-training 阶段能够观察到性能的有效提升,而 OpenAI O1 则是进一步将大模型训练的战场推向 Post-training 阶段。
在这里插入图片描述

OpenAI o1的价值及意义

OpenAI o1 是大模型的巨大进步

我觉得 OpenAI o1 是自 GPT 4 发布以来,基座大模型最大的进展,逻辑推理能力提升的效果和方法比预想的要好,GPT 4o 和 o1 是发展大模型不同的方向,但是 o1 这个方向更根本,重要性也比 GPT 4o 这种方向要重要得多,原因下面会分析。

为什么说 o1 比 4o 方向重要?

这是两种不同的大模型发展思路,说实话在看到 GPT 4o 发布的时候我是有些失望的,我当时以为 OpenAI 会优先做 o1 这种方向,但是没想到先出了 GPT 4o。GPT 4o 本质上是要探索不同模态相互融合的大一统模型应该怎么做的问题,对于提升大模型的智力水平估计帮助不大;而 o1 本质上是在探索大模型在 AGI 路上能走多远、天花板在哪里的问题,很明显第二个问题更重要。
GPT 4o 的问题在于本身大模型的智力水平还不够高,所以做不了复杂任务,导致很多应用场景无法实用化,而指望靠图片、视频这类新模态数据大幅提升大模型智力水平是不太可能的,尽管确实能拓展更丰富的多模态应用场景,但这类数据弥补的更多是大模型对外在多模态世界的感知能力,而不是认知能力。提升大模型认知能力主要还要靠 LLM 文本模型,而提升 LLM 模型认知能力的核心又在复杂逻辑推理能力。LLM 的逻辑推理能力越强,则能解锁更多复杂应用,大模型应用的天花板就越高,所以不遗余力地提升大模型尤其是文本模型的逻辑能力应该是最重要的事情,没有之一。

如果 o1 模型能力越做越强,则可以反哺 GPT 4o 这种多模态大一统模型,可以通过直接用 o1 基座模型替换 GPT 4o 的基座、或者利用 o1 模型生成逻辑推理方面的合成数据增强 GPT 4o、再或者用 o1 蒸馏 GPT 4o 模型…… 等等,能玩的花样应该有很多,都可以直接提升 GPT 4o 的复杂任务解决能力,从而解锁更复杂的多模态应用场景。OpenAI 未来计划两条线,一条是 o1,一条是 GPT 4o,它的内在逻辑大概应该是这样的,就是说通过 o1 增强最重要的基座模型逻辑推理能力,而再把这种能力迁移到 GPT 4o 这种多模态通用模型上。

OpenAI o1 的做法本质上是 COT 的自动化

我们知道,通过 COT 把一个复杂问题拆解成若干简单步骤,这有利于大模型解决复杂逻辑问题,但之前主要靠人工写 COT 来达成。从用户提出的问题形成树的根结点出发,最终走到给出正确答案,可以想像成类似 AlphaGo 下棋,形成了巨大的由 COT 具体步骤构成的树形搜索空间,这里 COT 的具体步骤的组合空间是巨大的,人写的 COT 未必最优。如果我们有大量逻辑数据,是由 <问题,明确的正确答案> 构成,则通过类似 AlphaGo 的 Monte Carlo Tree Search(MCTS)搜索 + 强化学习,确实是可以训练大模型快速找到通向正确答案的 COT 路径的。
而问题越复杂,则这个树的搜索空间越大,搜索复杂度越高,找到正确答案涉及到的 COT 步骤越多,则模型生成的 COT 就越复杂,体现在 o1 的速度越慢,生成的 COT Token 数越多。很明显,问题越复杂,o1 自己生成的隐藏的 COT 越长,大模型推理成本越高,但效果最重要,成本其实不是问题,最近一年大模型推理成本降低速度奇快,这个总有办法快速降下去。

从上面 o1 的做法可以知道 Prompt 工程会逐渐消亡

之前解决复杂问题,需要人写非常复杂的 Prompt,而 o1 本质上是 COT 等复杂 Prompt 的自动化,所以之后是不太需要用户自己构造复杂 Prompt 的。本来让用户写复杂 Prompt 就是不人性化的,所有复杂人工环节的自动化,这肯定是大势所趋。

Agent 属于概念火但无法实用化的方向,主要原因就在于基座模型的复杂推理能力不够强。如果通过基座模型 Plan 把一个复杂任务分解为 10 个步骤,哪怕单个步骤的正确率高达 95%,要想最后把任务做对,10 个环节的准确率连乘下来,最终的正确率只有 59%,惨不忍睹。那有了 o1 是不是这个方向就前途坦荡?也是也不是,o1 的 Model Card 专门测试了 Agent 任务,对于简单和中等难度的 Agent 任务有明显提升,但是复杂的、环节多的任务准确率还是不太高。就是说,不是说有了 o1 Agent 就现状光明,但是很明显 o1 这种通过 Self Play 增强逻辑推理能力的方向应该还有很大的发展潜力,从这个角度讲说 Agent 未来前途光明问题应该不大。

OpenAI 很多时候起到一个行业指路明灯的作用,往往是第一个证明某个方向是行得通的(比如 ChatGPT、GPT 4、Sora、GPT 4o 包括这次的 o1),然后其他人开始疯狂往这个方向卷,到后来甚至卷的速度太快把 OpenAI 都甩到后面吃尾气。典型例子就是 Sora,如果 OpenAI 不是出于阻击竞争对手秀一下肌肉,大家都没有意识到原来这个方向是可以走这么远的,但当意识到这一点后,只要你专一地卷一个方向,方向明确且资源聚焦,是可能赶超 OpenAI 的,目前国内外各种视频生成模型有些甚至可能已经比 Sora 好了,Sora 至今仍然是期货状态,主要 OpenAI 想做的方向太多,资源分散导致分到具体一个方向的资源不够用,所以越往后发展期货状态的方向越多,也让人觉得尽显疲态。

OpenAI o1 等于给大家又指出了一个前景光明的方向,估计后面大家又开始都往这个方向卷。我觉得卷这个方向比去卷 GPT 4o 和视频生成要好,虽然具体怎么做的都不知道,但是大方向清楚且效果基本得到证明,过半年肯定头部几家都能摸清具体技术追上来,希望能再次让 OpenAI 吃尾气。而且这个方向看上去资源耗费应该不会特别大,偏向算法和数据一些,数据量规模估计不会特别巨大,卷起来貌似成本低一些。这是个卷的好方向。

预训练 Scaling Law 的来源及 O1 提到的 RL Scaling law

粗分的话,大语言模型最基础的能力有三种:语言理解和表达能力、世界知识存储和查询能力以及逻辑推理能力(包括数学、Coding、推理等理科能力,这里 Coding 有一定的特殊性,是语言能力和逻辑掺杂在一起的混合能力,Coding 从语言角度可以看成一种受限的自然语言,但是混杂着复杂的内在逻辑问题。从语言角度看,Coding 貌似是容易解决的,从逻辑角度看又相对难解决。总之,Coding 目前看是除了语言理解外,大模型做得最好的方向)。

语言理解和表达是 LLM 最强的能力,初版 ChatGPT 就可以完全胜任各种纯语言交流的任务,基本达到人类水准,目前即使是小模型,在这方面比大模型能力也不弱;世界知识能力虽说随着模型规模越大效果越好,但幻觉问题目前无法根治,这是制约各种应用的硬伤之一;逻辑推理能力一直都是 LLM 的弱项,也是最难提升的方面,从 GPT 4 开始往后,如何有效并大幅提升 LLM 的逻辑推理能力是体现不同大模型差异和优势的最核心问题。所以,大模型最重要的一个是世界知识方面如何有效消除幻觉,一个是如何大幅提升复杂逻辑推理能力。语言能力已不是问题。

从大模型的基础能力,我们再说回已经被谈滥了的大模型 Scaling law。现在普遍认为通过增加数据和模型规模来提升大模型效果的 Scaling law 模式,其增长速度在放缓。其实我们对照下大模型的三个基础能力的能力来源,基本就能看出来这是为啥(以下是我猜的,不保真):

本质上大模型的能力来源都来自训练数据,包含能体现这方面能力的训练数据越多,则这种能力越强。语言能力不用说了,任意一份预训练数据,其中都包含相当比例的语言的词法句法等成分,所以训练数据中体现语言能力的数据是最多的,这也是为何大模型的语言能力最强的原因。

而数据中包含的世界知识含量,基本是和训练数据量成正比的,明显数据量越多,包含的世界知识越多,Scaling law 是数据中包含的世界知识含量关系的一个体现,但是这里有个问题,大模型见过越多数据,则新数据里面包含的新知识比例越小,因为很多知识在之前的数据里都见过了,所以随着数据规模增大,遇到的新知识比例就越低,在世界知识方面就体现出 Scaling law 的减缓现象。

为啥逻辑推理能力最难提升?因为能体现这方面的自然数据(代码、数学题、物理题、科学论文等)在训练数据中比例太低,自然大模型就学不好,尽管通过不断增加数据,能增加逻辑推理方面数据的绝对数量,但因为占比太少,这方面提升的效果和增加的总体数据规模就不成比例,效果也不会太明显,就体现在逻辑推理能力 Scaling law 看上去的放缓。这是很自然的。这也是为何现在为了提高模型逻辑能力,往往在预训练阶段和 Post-training 阶段,大幅增加逻辑推理数据占比的原因,且是有成效的

所以目前大模型的核心能力提升,聚焦到不断通过合成数据等方式构造更多比例的逻辑推理数据上来。但是大部分逻辑推理数据的形式是 < 问题,正确答案 >,缺了中间的详细推理步骤,而 o1 本质上是让大模型学会自动寻找从问题到正确答案的中间步骤,以此来增强复杂问题的解决能力

OpenAI o1 提到了关于 RL 在训练和推理时候的 Scaling law,并指出这与预训练时候的 Scaling law 具有不同特性。很明显,如果 o1 走的是 MCTS 搜索技术路线,那么把 COT 拆分的越细(增加搜索树的深度),或提出更多的可能选择(节点的分支增多,就是说树的宽度越宽),则搜索空间越大,找到好 COT 路径可能性越大,效果越好,而训练和推理的时候需要算力肯定越大。看上去有着效果随着算力增长而增长的态势,也就是所谓的 RL 的 Scaling law。这其实是树搜索本来应有之义,我倒觉得把这个称为 RL 的 Scaling law 有点名不副实

参考文献
4. 张俊林:OpenAI o1的价值意义及强化学习的Scaling Law
5. 北大对齐团队独家解读:OpenAI o1开启「后训练」时代强化学习新范式
6. OpenAI o1要跟,怎么跟?这个GitHub项目把解读、博客、相关论文一网打尽
7. RWKV作者对OpenAI 发布 o1 系列模型的看法,很深刻

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

SoaringPigeon

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值