23年5月来自普林斯顿和谷歌deepmind的一篇大语言模型论文“Tree of Thoughts: Deliberate Problem Solving with Large Language Models“。
语言模型越来越多地用于解决各种任务的通用问题,但在推理过程中仍然局限于token级、从左到右的决策过程。这意味着他们可能会在需要探索、战略展望或哪里初始决策才能发挥关键作用等任务中达不到要求。为了克服这些挑战,该文引入了一种语言模型推理框架“思维树”,概括了流行的“思维链”(ToT)方法来提示语言模型,并能够探索连贯的文本单元(“思想”),作为解决问题的中间步骤。ToT允许LM考虑多种不同的推理路径和自我评估选择来决定下一步行动方案,在必要时向前看或回溯。再做出全局选择,从而执行深思熟虑的决策。实验表明,ToT增强了语言模型在三个需要规划或搜索的新任务上解决问题的能力,如下表所示。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-y1UWccL7-1721581262565)(https://i-blog.csdnimg.cn/direct/41934b61e70d465ebfbc0874ac02de3e.png)]
如图说明使用LLM解决问题的各种方法示意图。每个矩形框代表一个思维,这是一个连贯的语言序列,作为解决问题的中间步骤。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qUXFiccx-1721581262569)(https://i-blog.csdnimg.cn/direct/27e8b541e0714a53a7765eb6ec966705.png)]
下面三个图分别对应三个TOT任务的示意图:
游戏:LM被提示(a)思想产生和(b)估值。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-e1r0TNy8-1721581262569)(https://i-blog.csdnimg.cn/direct/3e03481319ec4127a46ba2c2ca7df509.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-a5ZuynfO-1721581262570)(https://i-blog.csdnimg.cn/direct/6538d60b3b82472cb2bc0136757bfb1f.png)]
上图显示在随机选择的创意写作任务中进行刻意搜索的步骤。给定输入,LM 对 5 个不同的计划进行采样,然后投票 5 次决定哪个计划最好。最多数的选择用于以相同的样本投票过程写入输出段落。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MqJa6uKM-1721581262570)(https://i-blog.csdnimg.cn/direct/7f0f40b745844d568b48df8d033670ab.png)]
上图展示在迷你填字游戏中,(a)如何在深度优先搜索(DFS)的优先级队列中提出和聚合思维,以及(b)如何根据填写每个剩余单词线索的可能性评估状态,如果LM认为任何剩余线索无法填充,则修剪状态。然后DFS回溯到父状态,并探索下一个有希望的思维来寻找线索。