23年5月来自普林斯顿和谷歌deepmind的一篇大语言模型论文“Tree of Thoughts: Deliberate Problem Solving with Large Language Models“。
语言模型越来越多地用于解决各种任务的通用问题,但在推理过程中仍然局限于token级、从左到右的决策过程。这意味着他们可能会在需要探索、战略展望或哪里初始决策才能发挥关键作用等任务中达不到要求。为了克服这些挑战,该文引入了一种语言模型推理框架“思维树”,概括了流行的“思维链”(ToT)方法来提示语言模型,并能够探索连贯的文本单元(“思想”),作为解决问题的中间步骤。ToT允许LM考虑多种不同的推理路径和自我评估选择来决定下一步行动方案,在必要时向前看或回溯。再做出全局选择,从而执行深思熟虑的决策。实验表明,ToT增强了语言模型在三个需要规划或搜索的新任务上解决问题的能力,如下表所示。
如图说明使用LLM解决问题的各种方法示意图。每个矩形框代表一个思维,这是一个连贯的语言序列,作为解决问题的中间步骤。
下面三个图分别对应三个TOT任务的示意图:
游戏:LM被提示(a)思想产生和(b)估值。
上图显示在随机选择的创意写作任务中进行刻意搜索的步骤。给定输入,LM 对 5 个不同的计划进行采样,然后投票 5 次决定哪个计划最好。最多数的选择用于以相同的样本投票过程写入输出段落。
上图展示在迷你填字游戏中,(a)如何在深度优先搜索(DFS)的优先级队列中提出和聚合思维,以及(b)如何根据填写每个剩余单词线索的可能性评估状态,如果LM认为任何剩余线索无法填充,则修剪状态。然后DFS回溯到父状态,并探索下一个有希望的思维来寻找线索。