大模型CoT(Chain of Thought)最新研究综合整理

近期,思维链(Chain of Thought)领域出现了一些令人兴奋的研究进展,这些研究通过不同的方法增强了大型语言模型(LLMs)的推理能力:

  1. Graph of Thoughts (GoT): Solving Elaborate Problems with Large Language Models

    • 论文链接https://arxiv.org/pdf/2308.09687
    • 代码链接https://github.com/spcl/graph-of-thoughts
    • 简介:论文介绍了一种名为“思维图谱”(Graph of Thoughts,简称GoT)的框架,它通过将信息生成建模为任意图来增强大型语言模型的提示能力。在这个框架中,信息单元(即“LLM思考”)被视为顶点,而边对应于这些顶点之间的依赖关系。这种方法允许将任意的LLM思考结合起来,形成协同效应,提取整个思考网络的本质,或使用反馈循环增强思考。研究表明,GoT在不同任务上优于现有技术,例如在排序任务上,与树形思考(Tree of Thoughts,简称ToT)相比,质量提高了62%,同时成本降低了31%以上。c11b5ad324184692acd6ed6a9040e712.png
  2. Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models

    • 链接https://arxiv.org/abs/2406.04271
    •  代码链接https://github.com/YangLing0818/buffer-of-thought-llm

    • 简介:论文提出了一种名为“思维缓冲区”(Buffer of Thoughts,简称BoT)的新方法,旨在通过增强准确性、效率和鲁棒性来提升大型语言模型的推理能力。BoT通过存储一系列从各种任务的问题解决过程中提取的高级别思考模板(thought-template),并在每个问题中检索相关的思考模板,通过特定的推理结构进行高效的思考增强。此外,BoT还提出了一个缓冲区管理器(buffer-manager),以动态更新元缓冲区,从而随着解决更多任务,提高缓冲区的容量。3d7c388703c64b01b11e6bb009d35a3f.png
  3. Reversal of Thought: Enhancing Large Language Models with Preference-Guided Reverse Reasoning Warm-up

    • 链接https://arxiv.org/abs/2410.12323
    • 代码链接https://github.com/RoT-llm/Reversal-of-Thought
    • 简介:论文提出了一种名为“思维反转”(Reversal of Thought,简称RoT)的新框架,旨在通过偏好引导的反向推理热身策略来增强LLMs的逻辑推理能力。RoT利用元认知机制和成对偏好自评估,通过演示生成特定于任务的提示,与通过人类反馈强化学习(RLHF)塑造的LLMs的认知偏好相一致。通过反向推理,RoT使用认知偏好管理器评估知识边界,并通过聚合已知任务的解决方案逻辑和未知任务的风格模板,进一步扩展LLMs的推理能力。bb131d06d32845529ec48b22c8615954.png
  4. Layer-of-Thoughts Prompting (LoT): Leveraging LLM-Based Retrieval with Constraint Hierarchies

    • 链接https://github.com/RoT-llm/Reversal-of-Thought
    • 简介:论文介绍了一种名为“思维层次”(Layer-of-Thoughts Prompting,简称LoT)的新方法,它利用约束层次结构来过滤和优化对给定查询的候选响应。通过整合这些约束,LoT方法实现了一个结构化的检索过程,增强了可解释性和自动化。LoT通过在思维层次中表示推理过程,其中节点(称为思维)表示推理步骤,这些思维被划分为层次,并被归类为层次思维和选项思维,分别处理用户给出的概念步骤和协助寻找解决方案。LoT框架利用层次结构来过滤和排名来自给定语料库的文档,基于查询的相关性得分可以聚合使用多种指标,确保文档排名的高效和有效。00bd94714a0241619a8e731143c3ec51.png

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型分享

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值