EVERYTHING OF THOUGHTS : DEFYING THE LAW OF PENROSE TRIANGLE FOR THOUGHT GENERATION

题目

思想的一切:挑战思想生成的彭罗斯三角定律

在这里插入图片描述

论文地址:https://aclanthology.org/2024.findings-acl.95/
项目地址:https://github.com/Microsoft/Everything-of-Thoughts-XoT

摘要

    大型语言模型(LLM)的最新进展通过将复杂的问题分解为更易于管理的语言序列(称为“思想”)而彻底改变了决策。有效的思想设计应该考虑三个关键方面:性能、效率和灵活性。然而,现有的思想最多只能展示其中的两个属性。为了解决这些局限性,我们引入了一种新的思维激励方法,称为“思想的一切”(XOT),以挑战现有思维范式的“彭罗斯三角”定律。XOT利用预训练强化学习和蒙特卡罗树搜索(MCTS)将外部领域知识和规划能力融入到思想中,从而增强LLM的能力,使他们能够有效地概括未知的问题。通过利用MCTSLLM协作思想修订框架,这种方法以最少的LLM交互自主地产生高质量的综合认知映射。此外,XOT使LLM能够从事不受约束的思考,允许对有多个解决方案的问题进行灵活的认知映射。我们在几个具有挑战性的问题解决任务上评估了XOT,包括24小时游戏、8字谜和口袋魔方。我们的结果表明,XOT在各个方面明显优于现有的方法,展示了它在解决不同领域的复杂问题方面的非凡能力。可以在https://github . com/Microsoft/Everything-of-Thoughts-XoT-上找到重现论文结果的代码和数据集。

图1 不同激励模式的比较。
在这里插入图片描述

引言大型

    语言模型(LLM)的最新进展极大地推进了不同领域的问题求解,如数学推理Frieder等人(2023)、知识推理Omar等人(2023)、根本原因分析Chen等人(2023)和因果推理kēc man等人(2023)等.这一进步在很大程度上可以归功于将复杂的问题分解成被称为“思想”的更小的语言序列的技术。通过一步一步的推理过程,包括使用提示,每一个想法都作为一个中间阶段,有助于简化处理复杂问题,以实现问题的最终目标。

    无论是对人类还是对逻辑推理师来说,解决复杂问题和推理的思维步骤的有效设计应该优先考虑三个关键方面,即:

  1. 性能。性能是解决问题的准确性,包括中间阶段的每一个思想的准确性。这一指标对于解决问题至关重要。
  2. 效率。效率与解决一个问题所需的LLM推理调用次数有关。由于与LLM推断相关的高计算成本,最小化这一方面是至关重要的,从而减少总成本。
  3. 灵活性。思维拓扑中的灵活性指的是当组织解决问题的思路时,LLM可以采用的不同结构。这些结构可能包括链、树甚至图形,反映了人类的思维过程。启用更灵活的思维结构增强了LLM的发散性和创造性思维的能力,这在处理复杂问题,尤其是具有多种潜在解决方案的问题时尤其有利。

    思维生成范式主要有思维链(CoT)和魏等(2022),思维树(ToT)姚等(2023),思维图(GoT) Besta等(2023)等…然而,这些范例都有其局限性,不能同时实现所有三个期望的属性,如表1所示。具体来说,直接输入输出(IO)提示主要适用于单步流程的简单问题解决场景,在性能和灵活性方面都有所欠缺。CoT和自洽CoT (CoT-SC)支持逐步解决问题,从而适度提高性能,但它们受限于线性思维结构,限制了它们的灵活性。相比之下,ToT和GoT允许更通用的思想拓扑,适应树状或图状结构。然而,这些范例需要通过LLM本身对中间思想步骤进行评估,由于多个LLM调用而导致大量的计算成本和低效率。这些范式受到类似于“彭罗斯三角形”的定律的约束,其中它们最多可以实现三个属性中的两个,并且它们中没有一个可以同时实现所有三个属性。

    我们提出了一种新的解决方案,称为“思想的一切”(XOT),以解决传统思维框架的局限性,增强思维生成的基本属性,包括LLM推理的性能、效率和灵活性。利用强化学习(RL)李(2017)和蒙特卡洛树搜索(MCTS)西尔弗等人(2017),结合轻量级策略和价值网络,对思维搜索的特定任务进行预训练,并随后推广到新问题。这种预训练有效地将外部领域知识和规划能力整合到提供给LLM的“思想”中,扩展了他们解决问题的能力,从而显著地提高了性能。一旦经过训练,XOT就可以使用具有成本效益的策略和价值网络的MCTS来有效地执行思维搜索,并自动生成LLM的完整认知映射。然后,它采用MCTS-LLM合作思想修正过程,以进一步提高思想质量,同时尽量减少LLM的互动。这消除了LLM自己探索和评估思想的需要,如ToT和GoT所要求的,提高了XOT的效率。此外,MCTS显示出非凡的灵活性,因为它可以探索各种思维拓扑,包括类似于人类思维导图过程中使用的图形结构Faste & Lin(2012);贾米森(2012)。这使得LLM能够进行多样化和创造性的思考,在处理复杂的思维结构或具有多种潜在解决方案的任务时,这一点尤为重要。通过同时实现卓越的性能、效率和灵活性,XOT挑战了“彭罗斯三角”定律带来的限制,大大超越了其他思想生成范式的能力。

    我们通过一系列具有挑战性的问题解决任务,即24人游戏、8人拼图和口袋魔方,全面评估了XOT。我们的实验结果始终展示了XOT的卓越性能,以及只需几次LLM调用就能高效地为问题提供多种解决方案的能力。这些发现确立了XOT作为一种有效的思维生成方法,为LLMs解决问题能力的新途径铺平了道路。

背景

    LLMs的背景思想。解决复杂的问题通常需要将总体目标分解成多个中间步骤。与每一步相关联的结果或认知过程是思想,它可以被表达为语言提示序列,以便于LLM解决问题。这些思想的结构可以采取各种形式,包括线性链、层次树或互连图,这取决于如何组织思想以推进解决方案。

  • 输入输出(IO)提示(图1 (a))。IO方法是指导LLM解决问题的最直接的方法,不需要提供任何中间思维过程。
  • 思维链(CoT)魏等(2022)(图1 (b))。CoT将解决问题分解成一个连续的思维链,允许LLM一步一步地处理复杂的问题。
  • 自洽CoT (CoT-SC)王等(2023a)(图1 ©)。CoT-SC使用CoT的多个实例从LLM生成多个输出。它从多个LLM输出中选择最佳结果,与普通CoT相比,提供更健壮和一致的推理。
  • 思维树(ToT)姚等(2023)(图1 (d))。ToT以树状结构组织思想,并利用搜索算法(例如,广度优先搜索、深度优先搜索)来扩展树,以寻求最佳解决方案。然而,ToT中的思想评估依赖于LLM本身,需要多次昂贵且低效的LLM推理调用。
  • 思维图(GoT) Besta等人(2023)(图1 (e))。GoT扩展了ToT方法,通过在中间搜索阶段进行思想聚合和提炼来生成类似图形的思想结构。尽管这种方法允许更灵活的思想结构,但它仍然需要多个LLM推理调用来进行评估,从而导致大量的计算成本。

XOT:思想的一切

    XOT作为一个LLM-MCTS的合作框架,旨在加强思想生成过程,从而帮助LLM解决复杂的问题。它利用MCTS进行熟练和有效的思想探索,同时利用LLM的能力来提炼和修改来自MCTS的思想。这种协同作用创造了一种互利的安排,最终能够成功地解决复杂的问题,其特点是高水平的性能、效率和灵活性。

在这里插入图片描述
图1:XOT和其他激励模式的比较。

XOT

    简而言之,我们在图1 (f)中展示了XOT的建筑概况。XOT由两个关键部分组成:(一)由政策/价值网络指导的MCTS模块;以及(ii)用于思想修正和推理的LLM解算器。MCTS和政策/价值网络需要训练,然后推广到推理过程。在训练阶段,MCTS被用来通过模拟场景探索特定任务的潜在思维结构。这个过程需要记录每个模拟中思想节点的状态、值和访问频率。这些记录的数据随后被用于反复训练政策和价值评估模型,使其能够吸收领域知识并理解世界模型。

    一旦被训练,估计的政策和价值被用来指导MCTS系统地寻找一个思维轨迹,以帮助LLM解决问题。请注意,仅提取思想发挥辅助作用,协助后勤管理人员从外部来源收集知识并提高其规划能力。这些想法并没有给LLM提供明确的或无误的答案,因为它们可能包含不准确或次优的解决方案。当这些想法看起来错误或需要调整时,LLM负责审查和提炼这些想法。如果需要的话,他们继续MCTS搜索过程,并通过将这些外部想法与他们的内部知识相结合,最终形成最终的答案。

思维搜索公式

    采用思维生成范式的基本目标是识别复杂问题到几个可管理子步骤的最优分解。每个子步骤都旨在改变问题的当前状态,最终成功解决总体问题。从ToT和GoT中可以看出,这种方法依赖于定义明确的状态转换和明确的最终目标。因此,很自然地将思考搜索过程概念化为马尔可夫决策过程(MDP·普特曼(1990),其中:

  • 状态st:代表问题的当前状态。初始状态s0对应于原始问题,而中间状态的特征在于分解的子问题或源于它们的解决的结果。
  • 行动:表示与解决问题相关的一步解决方案或行动,通过整合其结果,导致向新状态的过渡。
  • 奖励r:反映对原问题解决方案的综合评价,评估是否通过问题分解过程得到了有效解决。
  • 思想τ:一步思想是一步状态和动作的组合,即τ = {s,a}。这个公式自然地将一个复杂的问题分解成多个子任务,每个子任务都伴随着各自的结果。

    每个任务的状态、行动、奖励和思想的详细定义如表1所示。完整思想的产生T = {τ1,τN },可以被解释为努力发现一个思想轨迹,以最大化解决整体问题的累积回报。

在这里插入图片描述
图2:MCTS思维搜索((a)-©)和问题解决中的思维推理(d)的迭代阶段图解。

用MCTS寻找思想上面的公式

    自然地将LLM中的思想排列成状态-行动对。这种方法有助于使用MCTS和RL的组合来有效地探索其最优轨迹。这遵循一个迭代模拟循环,该循环包含三个关键阶段:选择、扩展和评估,以及反向传播。它在很大程度上依赖于神经网络fθ的利用,神经网络fθ同时估计给定状态st的值和动作概率。其目的是减少推出的数量并加速搜索过程,类似于AlphaGo Zero Silver等人(2017年)采用的方法。我们以Pocket Cube为例,提供了图2 (a)-©中MCTS迭代的可视化表示,并在下面详述了每个过程。

    选择。在选择阶段,算法从根节点开始,并继续从可用集合A(s)中选择动作A∫用于当前状态s中的单步思想生成。该过程继续,直到到达当前树中的叶节点。该选择由旨在最大化置信上限(UCB)的PUCT算法Rosin (2011),Garivier & Moulines (2011),如下所示:在这里插入图片描述这里,Q(s,a)表示状态-动作对(s,a)的Q值,它估计给定状态下特定动作的质量。Q值越高,动作被认为越好。Pθ(s,a)表示在给定从神经网络fθ获得的状态s的情况下选择动作a的预测先验概率,N(s,a)表示动作a在状态s中被选择的次数参数w控制着勘探和开采之间的权衡。选择过程将继续,直到遇到未探索的节点。

    评估和扩展。在到达先前未选择的叶节点时,我们扩展到状态s,用于新思想探索的下一步。这种展开涉及到对其价值的评估和对状态的作用概率,这些都是用θ参数化的神经网络来建模的,即(Pθ(s),vθ(s)) = fθ(s)。这里Pθ(s)是s上所有动作的先验概率,vθ(s)表示其预测状态值。出于备份目的,这两个值被保留和存储,并且状态s被屏蔽为“已访问”。

    反向传播。在上述阶段中的叶节点的扩展之后,其可以是未探索的或终止的状态,该算法继续通过反向传播来更新所有的Q(s,a)值。对于未探测的节点,这种更新涉及计算其估计值vθ的平均值,而对于终止的节点,它基于真实的回报r。当信息沿着轨迹反向传播到后续节点时,这些更新发生。此外,每个状态-动作对的访问计数也如下递增:N(s,a) = N(s,a) + 1。

    在一系列的选择、评估、扩展和反向传播步骤之后,模拟就完成了。在进行多次模拟后,我们继续下一步,使用定义为εa ∝ N(s,a) 1/γ的概率分布选择状态s下的动作,其中γ是调节探索水平的温度常数。

    政策和价值网络培训。上述模拟允许我们为每个样本状态s编译包含(s,ε(s),v(s))的数据集,其中ε(s) = {εa | a ∈ A(s)},并且v(s)表示通过沿着从状态s开始的轨迹累积奖励而获得的基本真实值。随后,我们可以训练组合的策略和价值网络fθ,以最小化预测值vθ(s)和实际值v(s)之间的差异,同时还最大化神经网络Pθ(s)产生的动作概率之间的一致性这可以通过最小化以下损失函数来实现:在这里插入图片描述这种训练与模拟过程一起反复进行,以不断提高fθ的性能,从而逐步提高思维搜索能力。

思维推理

    一旦经过训练,我们就可以利用fθ来引导MCTS为一个新问题产生一种思维,从而帮助LLM解决这个问题。具体地说,如图2 (d)所示,MCTS被用来进行旨在寻找思路和解决问题的K模拟。在每次模拟中,fθ被用来引导MCTS寻找思维轨迹。在整个训练过程中,fθ结合了与状态和动作质量相关的外部信息。这些信息有助于LLM理解世界模型,增强他们的长期推理和规划能力,这是他们在Stechly等人(2023)中可能不擅长的领域;Valmeekam等人(2023),从而确保思想生成的性能。一旦模拟结束,我们记录访问计数N(s,a ),并根据所需解决方案的数量获得思维轨迹:单一解决方案。从每个状态s开始,选择具有最高访问计数N(s,a)的动作。

    多重解决方案。我们按照概率分布εa ∝ N(s,a)对M个思维轨迹进行采样,并去除重复。这导致一个或多个思维轨迹T∫由一系列用于解决问题的状态-行动对组成。多解性问题的轨迹可能会交织在一起,并汇聚到同一个目标状态,从而形成一个类似图形的思维结构。这表明XOT能够灵活地生成思想结构。这些轨迹然后被转换成文本序列,这些文本序列被连接以形成提供给LLMs的提示序列。请注意,思维轨迹被连接到一个提示中,即使是在问题有多个解决方案的情况下。因此,我们在这个阶段只需要一个LLM推理调用。鉴于fθ网络相对较轻,这确保了XOT的效率。

    思维-提示分析。一旦思想轨迹T *从MCTS中提取出来,我们就把它们转换成LLM推理所必需的文本格式。在这个转换过程中,我们将思想的每一步的状态和动作都转换成文本,即T *中的τ = {s,a}。这种转换旨在提供全面的状态转换,帮助LLM逐步更好地理解任务。在多解方案的情况下,多个轨迹被连接起来。这种格式在所有基线中保持一致,然后将得到的提示文本提供给LLMs进行推断或修改。

    思想修正。重要的是要认识到,MCTS可能不总是提供全局最优的思维轨迹来直接完美地解决问题。因此,从MCTS中提取的思想作为问题的参考思维过程,以支持的能力帮助逻辑推理硕士。LLM将利用他们的内部知识来审查提取的思想,识别思想轨迹中的错误,然后与MCTS合作以其知识为基础来修改和完善思想。在这种情况下,LLM扮演着类似于合作框架参与者的角色,指导MCTS提高其绩效。

    修订过程本质上是迭代的,如图3所示。最初,在获得提取的思想后,我们指示LLM使用其内部知识来检测MCTS产生的思想中的任何错误。如果LLM识别出一个错误,它会在思想中产生一个错误状态,表示为se。如果没有发现错误,思路不变。从se的母状态开始,MCTS进行了另外一组L模拟,最终产生了LLM的修正思想。在涉及多个解决方案的场景中,每个解决方案都单独经历这个过程。修改完成后,我们向LLMs提供修改后的问题解决思路。修改过程可以重复多次,以增强答案的可靠性。

    这种合作的MCTS-LLM框架培育了一个对双方都有利的过程,最终有助于解决问题的整体表现。由于LLM仅用于在仅一次调用的修订过程中识别错误,因此有效地保持了XOT的效率。协作修订框架利用了MCTS和物流管理系统的优势。MCTS通过模拟有效而灵活地为逻辑硕士产生候选想法,而逻辑硕士利用他们的内部知识在MCTS框架内修改和巩固这些想法,有效地将MCTS变成了逻辑硕士的世界模型。这个过程确保产生高质量的解决问题的想法。

在这里插入图片描述
图3:XOT思想修正过程的图解。

实验

    我们对我们的XOT方法进行了广泛的评估,并在三个具有挑战性的任务中与几种基线方法进行了比较:24人游戏、8字谜(具有3 × 3网格)和2 × 2口袋魔方。表2概述了这些任务。这些任务的特点是复杂,需要多个步骤才能完成,并且可能有多种解决方案。

    为了评估XOT的有效性,我们将其与IO、CoT、CoT-SC、ToT、GoT和没有LLM的单个MCTS进行比较,以进行推断和修正。我们还微调了LLaMA-2-13B Touvron等人(2023)进行比较,使用相同的训练数据和基本事实标签。LLaMA2-13B的设置可以在附录a中找到。我们采用了GPT-3.5欧阳等人(2022)和GPT-4 OpenAI (2023)进行这些评估。请注意,对于所有调用的LLM,温度和top p都设置为0.0。我们进一步开展消融研究,以评估想法修改的影响、修改成功率以及对所提供想法完整性的敏感度,如第4.4节所述。

在这里插入图片描述

    在第4.5节中,我们在多解决方案场景中进行案例研究,以说明思维结构。MCTS的计算训练成本在附录b中讨论。关于将XOT推广到其他NLP任务的讨论,如Besta等人(2023)的文件合并,可以在附录c中找到策略/价值网络配置。在我们的模型中,策略和价值网络利用共享的多层感知器(MLP)架构,该架构具有两层,隐藏单元排列为(128,256)。连接到MLP的两个头部分别负责预测vθ(s)和Pθ(s)。所有三个任务的策略/价值网络中的参数总数约为106。与LLM相比,这种设计的模型更小,效率更高。我们通过三次迭代来训练这个模型,每次迭代包括MCTS的10集自演。

    评估指标。对于每个任务,我们在测试集上评估每个方法的准确性。此外,我们跟踪所有解决问题的方法所需的LLM调用次数,以及在XOT的情况下调用fθ的次数。值得注意的是,与LLM相比,fθ是一个小得多的模型。在多解方案的上下文中,准确性是以每种方法提供的任何答案是正确的问题的百分比来计算的。多解决方案准确性(MultiAcc)是指所有解决方案的平均正确率。此外,我们捕获每种方法提供的不同解决方案的总数,不管它们是否正确,表示为#Sol。注意,我们设置了多解方案中所有问题的最大解数为3。在表3至表8中,思想修正的次数用r表示

24人游戏

    24人游戏提出了一个算术挑战,其目标是使用1到13范围内的四个数字,结合基本算术运算(即+、×、),以获得24的最终结果。这个博弈可能有多个有效解。

任务设置

    我们从4nu收集了一个数据集,包括1,362个按照人类解决时间排序的游戏,跨越了从容易到困难的难度级别范围。在我们的测试阶段,我们随机选择了137个游戏,确保覆盖了各种难度区间。剩余的1,225个问题用于训练MCTS的政策/价值网络。在这个任务的上下文中,如表1中所概述的,思想指的是三个中间方程,而状态包括用于创建方程的可用数字(从1到4)。动作包括选择两个数字和一个运算符以形成一个等式,如果最终等式有效并产生数字24,奖励设置为1,每个输入数字正好使用一次,否则设置为-1。通过计算137个测试游戏的成功率来衡量性能。

<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三月七꧁ ꧂

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值