大模型推理革新:探索思维图(DoT)框架的逻辑与应用

姚期智院士领衔推出了大模型新推理框架,CoT的“王冠”已难以承载。

提出了思维图(Diagram of Thought,DoT),使大模型的思考方式更接近人类。

团队为这一推理过程提供了数学基础,通过拓扑斯理论(Topos Theory)对DoT进行了正式化(formalize),确保了其逻辑一致性和合理性。

图片

相比于将推理过程表示为线性序列的CoT,DoT更能捕捉人类推理的复杂性。

与引入分支结构的ToT和GoT不同,DoT不依赖外部控制机制或多个模型协作,使训练和部署更加简单。

秘诀在于,DoT将大语言模型(LLM)中的迭代推理建模为在单一模型内部构建有向无环图(DAG)。

DAG由代表命题、批评、精炼和验证的节点组成,边表示它们之间的逻辑或依赖关系,且所有边均有方向,不存在任何循环路径。

图片

这种无环特性确保推理过程不受循环依赖的影响,更真实地反映合理的逻辑推导。

在DoT的帮助下,诸如“9.11和9.8哪个大”、“strawberry中有几个‘r’”等问题都能迎刃而解。

图片

图片

值得注意的是,当前大模型中的“顶流”OpenAI o1已具备生成CoT的能力,而更强大的DoT的到来,是否意味着可以通过强化学习内化到模型中?

图片

这项研究提出后引起了广泛关注。

网友纷纷表示这是一条正确的路径。

图片

图片

具体来看DoT的结构。

大模型复杂推理新框架 

如前所述,DoT将逻辑推理过程建模为在单个LLM内构建有向无环图(DAG)。

其框架内管理着三个关键角色:

  1. 提议者:生成命题或推理步骤,添加新节点。

  2. 批评者:评估命题,识别错误、不一致或逻辑谬误,并添加批评节点。

  3. 总结者:将经过验证的命题综合成一个连贯的思维链,有效地执行DAG的拓扑排序(topological sort),以产出最终推理输出。

这三个角色通过特定token(如<proposer>、<critic>、<summarizer>)在模型输出中被明确定义。LLM在生成过程中能够在这些角色间无缝切换,利用自回归能力根据上下文预测下一个token。

图片

推理过程始于提议者引入一个命题,并向DAG添加一个节点。

随后,批评者对该命题进行评估。如果提供了批评,则会添加新节点,并在命题与批评之间建立边。

基于批评,提议者生成精炼后的命题,表示为DAG中的新节点。

这一过程会不断重复,命题经过精炼,直到得到验证。

一旦形成足够有效的命题,总结者将综合这些推理,对DAG进行拓扑排序,产生连贯的思维链。

通过让模型接触正确与错误的推理,DoT使得LLM能够从错误中学习,逐步精炼推理过程,这更接近人类的解决问题方式。

这种方法不仅捕捉了推理的非线性和迭代特性,还通过自然语言批评提供了比二元信号更为丰富的反馈。

DoT的训练使用格式化为DoT结构的训练样例,包括角色特定token和DAG表示。在推理过程中,模型根据上下文线索和角色特定token生成命题、批评和总结。

这种方法简化了部署,消除了对多个LLM协作或外部控制机制的需求,同时与标准LLM训练范式保持一致,便于集成到现有工作流程中。

作者为DoT框架提供了严谨的数学基础,利用Topos Theory对推理过程进行了形式化描述。

图片

在该框架中,命题被建模为拓扑中终端对象的子对象,逻辑关系和推理步骤用态射表示,批评与改进过程则分别对应子对象分类器的态射和命题间的态射。

通过引入PreNet范畴,他们成功捕捉了推理过程的动态和并发特性。

这种数学基础不仅确保了推理过程的逻辑一致性与完备性,还为下一代专门用于推理的AI模型设计提供了概念框架。

清华交叉信息研究院的姚期智、袁洋领衔了这篇论文,第一作者为张伊凡。

图片

张伊凡于2021年本科毕业于北京大学元培学院,现为清华大学交叉信息学院的博士研究生,师从袁洋助理教授。其研究方向包括基础模型(大语言模型)的理论与算法、自监督学习及可信人工智能。

袁洋是清华大学交叉信息学院助理教授,博士生导师,主要研究方向为智能医疗、AI可解释性及AI大系统,在非凸优化理论、神经网络优化理论及机制设计等领域有丰富的研究成果。

姚期智教授是中国科学院院士、清华大学交叉信息研究院院长,是“图灵奖”创立以来首位获奖的亚裔学者,至今唯一的华人计算机科学家。2004年,他辞去普林斯顿大学的终身教职回到清华任教,并创办了多个重要的计算机科学项目。

图片

一年前的同一时间,姚期智院士领衔提出了累积推理(Cumulative Reasoning,CR)的方法,而DoT是对CR的进一步深化。

图片

CR协调了涉及不同专业化大语言模型的迭代过程,由不同模型承担提议者、验证者和报告者的角色。而DoT则直接在单一模型内构建有向无环图,避免了外部控制机制或多个模型的依赖,训练和部署更为简便。

此外,在DoT中,模型生成的批评反馈为自然语言形式,而非CR中仅提供的二元信号,使模型能够接收到关于错误的详细解释,更有效地改进命题。

这次DoT还引入了强有力的数学基础,阐明了推理过程与范畴逻辑的关系,理论上确保了推理的一致性与可靠性。

论文链接:https://arxiv.org/abs/2409.10038

参考链接:
[1]https://x.com/omarsar0/status/1835882277563179512
[2]https://hub.baai.ac.cn/users/16897
[3]https://hub.baai.ac.cn/users/19790

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值