腾讯:LLM结合快慢思考求解复杂问题

在这里插入图片描述

📖标题:HDFlow: Enhancing LLM Complex Problem-Solving with Hybrid Thinking and Dynamic Workflows
🌐来源:arXiv, 2409.17433

摘要

🔸尽管大型语言模型(LLM)最近取得了进展,但它们在需要多步思维和结合各种技能的复杂推理问题上的性能仍然有限。
🔸为了解决这个问题,我们提出了一种新的框架HDFlow,用于使用LLM进行复杂推理,该框架以自适应的方式结合了快速和慢速思维模式。我们的方法由两个关键部分组成:1)一种称为动态工作流的缓慢、深思熟虑的推理新方法,它自动将复杂问题分解为更易于管理的子任务,并动态设计一个工作流,以组装专门的LLM或符号推理工具来解决子任务;2) 混合思维,一种基于问题复杂性动态组合快速和慢速思维的通用框架。
🔸最后,我们提出了一种易于扩展的方法,用于自动合成27K复杂推理挑战性推理问题的大规模数据集,以及一种混合思维调优方法,该方法在该数据集上训练较小的LLM,以内化快速/慢速混合推理策略。
🔸在四个推理基准数据集上的实验表明,我们在动态工作流程中的慢速思维明显优于思维链,混合思维在提供计算效率和性能之间的有效平衡的同时实现了最高的准确性。使用我们的混合思维方法进行微调也显著提高了开源语言模型的复杂推理能力。研究结果展示了慢速思维、动态工作流程和混合思维在拓展LLM复杂问题解决前沿方面的前景。代码、数据公开在https://github.com/wenlinyao/HDFlow.

🛎️文章简介

🔸研究问题:如何提升大语言模型(LLM)在需要多步骤思考和多种技能的复杂推理问题上的表现?
🔸主要贡献:论文提出了一个名为HDFlow的框架,通过混合思维和动态工作流来增强LLM解决复杂问题的能力,并展示了在多个基准数据集上的显著性能提升。

📝重点思路

🔺相关工作

🔸符号推理和工具使用:一系列方法依赖于仔细设计何时以及如何集成每个任务域的符号推理,如AlphaCode将LLM和搜索与重排序结合,AlphaCodium引入多阶段过程,FunSearch使用LLM指导的进化搜索程序等。
🔸提示策略:以提高LLM的问题推理能力,如思维链(CoT)、思维树(ToT)、思维图(GoT)、思维程序(PoT)、自我发现等。
🔸多代理框架:AutoGPT使用LLM递归目标分解和完成,ReAct交叉推理和行动,Reflexion通过语言反思并改进决策,AutoGen多代理对话,CAMEL角色扮演交流,StateFlow通过状态机解决。

🔺论文方案

🔸主要思想:结合快思考和慢思考两种模式,根据问题的复杂性动态选择合适的思维模式。
🔸快思考:使用直接的CoT策略快速解决问题,适用于模型核心能力范围内的任务。
🔸慢思考:引入动态工作流机制 ①将复杂问题分解为更易管理的子任务 ②由元专家领导编排专业知识,由每个专家各自负责特定的子任务,形成一个高效的工作流序列。
🔸混合思考(快慢结合):先执行快思考,再让模型会自我验证每一步推理的连贯性、逻辑一致性和正确性,如果发现低信心步骤,则切换到慢思考模式。

🔎分析总结

🔸性能提升:在四个推理基准数据集上,使用动态工作流的慢思考显著优于传统的CoT。
🔸混合思维的有效性:在三个数据集上达到了最高的准确率,展示了在计算效率和性能之间的有效平衡。
🔸模型微调的影响:通过混合思维微调的模型,相比原始模型在所有数据集上都有性能显著提升。
🔸模型差异:GPT-4-Turbo模型在解决复杂问题时更依赖快思考,而经过微调的Llama-3则更多地依赖慢思考,特别是在复杂任务中,这表明混合思维方法能够根据模型的下游推理能力动态调整最佳的思维模式组合。

💡个人观点

论文的核心是自适应地结合快思考和慢思考,并在慢思考中引入专家编排的工作流程图。

附录

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值