Openai O1之后的大型推理模型LRM是啥？

最新推荐文章于 2025-03-29 17:30:42 发布

yifangyun_360

最新推荐文章于 2025-03-29 17:30:42 发布

阅读量220

点赞数

文章标签：人工智能 ai

原文链接：https://mp.weixin.qq.com/s/78jd4ppkxNJwqXl8eTt9LA

版权

兼看两个科研助手项目实现思路

文章转自公众号老刘说NLP

自从Openai O1推出之后，就有了一个新的名词，LRMs(大型推理模型)，与传统LLMs相对。

背景是，随着大型语言模型（LLM）的兴起，其规划能力备受关注。OpenAI 的 o1（Strawberry）模型旨在突破自回归 LLM 的局限，成为新型的大型推理模型（LRM）。

那么，其到底是个啥东西，在规划能力上的主要区别是什么?我们先开看看。

这个可以看看工作《LLMs Still Can't Plan; Can LRMs? A Preliminary Evaluation of OpenAI's o1 on PlanBench》，https://arxiv.org/abs/2409.13373，大致的结论如下：

LRMs (如OpenAl的o1模型)与传统LLMs在规划能力上的主要区别在于其架构和训练方式。

LRMs结合了底层的大型语言模型和一个通过强化学习预训练的系统，该系统负责指导推理痕迹的创建、管理和最终选择。

LRMs的训练过程中包含一个额外的强化学习预训练阶段，可能用于从大量合成数据中学习不同Chain-of-Thought (CoT) 的q值。

此外， LRMs采用了一种新的自适应扩展推理过程，可能在选择特定CoT之前通过某种形式的展开进一步细化学到的q值。这些机制使得LRMs在处理复杂的规划任务时表现出更好的性能，但同时也增加了计算成本和复杂性。

另一个，我们也来看看大模型用于科研的两个实现项目Llama Researcher及GPT-Researcher，Llama Researcher，https://github.com/rsrohan99/Llama-Researcher在线研究助手，利用Llamaindex工作流和Tavily API，进行特定主题的在线研究，灵感来源于GPT-Researcher，https://github.com/assafelovic/gpt-researcher/blob/master/README-zh_CN.md，我们可以看看其实现思路。

一、GPT-Researcher实现思路

GPT-Researcher是一个智能体代理，专为各种任务的综合在线研究而设计。

其提出的前提在于，因为人工研究任务形成客观结论可能需要时间和经历，有时甚至需要数周才能找到正确的资源和信息。目前的LLM是根据历史和过时的信息进行训练的，存在严重的幻觉风险，因此几乎无法胜任研究任务。

网络搜索的解决方案（例如 ChatGPT + Web 插件）仅考虑有限的资源和内容，在某些情况下会导致肤浅的结论或不客观的答案。

只使用部分资源可能会在确定研究问题或任务的正确结论时产生偏差。

因此，GPT-Researcher主要思想是运行“计划者”和“执行”代理，而计划者生成问题进行研究，“执行”代理根据每个生成的研究问题寻找最相关的信息。最后，“计划者”过滤和聚合所有相关信息并创建研究报告。

代理同时利用gpt-40-mini和gpt-4o（128K 上下文）来完成一项研究任务。我们仅在必要时使用这两种方法对成本进行优化。研究任务平均耗时约3分钟，成本约为~0.1美元。

最上方是一个任务(Task)，任务会传给上方的Research Questions Generator(研究问题生成器)，生成器向下生成query #1, query #2...query n多个查询问题，再将这些查询问题分别传给下方的Report Agent报告代理，报告代理将整合所有查询问题得到最终报告。

具体的流程可以拆解为：