思维树TOT:大语言模型的深思问题求解方法

179 篇文章 0 订阅
174 篇文章 1 订阅

23年5月来自普林斯顿和谷歌deepmind的一篇大语言模型论文“Tree of Thoughts: Deliberate Problem Solving with Large Language Models“。

语言模型越来越多地用于解决各种任务的通用问题,但在推理过程中仍然局限于token级、从左到右的决策过程。这意味着他们可能会在需要探索、战略展望或哪里初始决策才能发挥关键作用等任务中达不到要求。为了克服这些挑战,该文引入了一种语言模型推理框架“思维树”,概括了流行的“思维链”(ToT)方法来提示语言模型,并能够探索连贯的文本单元(“思想”),作为解决问题的中间步骤。ToT允许LM考虑多种不同的推理路径和自我评估选择来决定下一步行动方案,在必要时向前看或回溯。再做出全局选择,从而执行深思熟虑的决策。实验表明,ToT增强了语言模型在三个需要规划或搜索的新任务上解决问题的能力,如下表所示。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-y1UWccL7-1721581262565)(https://i-blog.csdnimg.cn/direct/41934b61e70d465ebfbc0874ac02de3e.png)]

如图说明使用LLM解决问题的各种方法示意图。每个矩形框代表一个思维,这是一个连贯的语言序列,作为解决问题的中间步骤。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qUXFiccx-1721581262569)(https://i-blog.csdnimg.cn/direct/27e8b541e0714a53a7765eb6ec966705.png)]

下面三个图分别对应三个TOT任务的示意图:

游戏:LM被提示(a)思想产生和(b)估值。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-e1r0TNy8-1721581262569)(https://i-blog.csdnimg.cn/direct/3e03481319ec4127a46ba2c2ca7df509.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-a5ZuynfO-1721581262570)(https://i-blog.csdnimg.cn/direct/6538d60b3b82472cb2bc0136757bfb1f.png)]

上图显示在随机选择的创意写作任务中进行刻意搜索的步骤。给定输入,LM 对 5 个不同的计划进行采样,然后投票 5 次决定哪个计划最好。最多数的选择用于以相同的样本投票过程写入输出段落。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MqJa6uKM-1721581262570)(https://i-blog.csdnimg.cn/direct/7f0f40b745844d568b48df8d033670ab.png)]

上图展示在迷你填字游戏中,(a)如何在深度优先搜索(DFS)的优先级队列中提出和聚合思维,以及(b)如何根据填写每个剩余单词线索的可能性评估状态,如果LM认为任何剩余线索无法填充,则修剪状态。然后DFS回溯到父状态,并探索下一个有希望的思维来寻找线索。

  • 6
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值