UT：CoT在LLM推理的机制分析

最新推荐文章于 2025-05-30 08:05:08 发布

大模型任我行

最新推荐文章于 2025-05-30 08:05:08 发布

阅读量1.1k

点赞数 19

分类专栏：大模型-推理优化文章标签：人工智能自然语言处理语言模型论文笔记

本文链接：https://blog.csdn.net/weixin_46739757/article/details/142654637

版权

大模型-推理优化专栏收录该内容

131 篇文章

订阅专栏

在这里插入图片描述

📖标题：To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning
🌐来源：arXiv, 2409.12183

摘要

🔸通过提示的思维链（CoT）是从大型语言模型（LLM）中获取推理能力的事实上的方法。但是，对于什么样的任务，这种额外的“思考”真的有帮助呢？为了分析这一点，我们使用CoT对100多篇论文进行了定量荟萃分析，并对14个模型中的20个数据集进行了自己的评估。
🔸我们的结果表明，CoT主要在涉及数学或逻辑的任务上提供了强大的性能优势，在其他类型的任务上获得的收益要小得多。在MMLU上，直接生成答案而不使用CoT会导致与CoT几乎相同的准确性，除非问题或模型的响应包含等号，表示符号操作和推理。
🔸根据这一发现，我们通过将计划和执行分开，并与工具增强的LLM进行比较，分析了CoT在这些问题上的行为。CoT的大部分收益来自于改进符号执行，但与使用符号求解器相比，它的表现不佳。我们的结果表明，CoT可以选择性地应用，在保持性能的同时节省推理成本。此外，他们建议需要超越基于提示的CoT，转向在整个LLM应用程序中更好地利用中间计算的新范式。

🛎️文章简介

🔸研究问题：为什么思维链（CoT）在数学和符号推理问题上表现更好，而在其他问题上效果不明显？
🔸主要贡献：论文通过实验分析，揭示了CoT在数学和符号推理任务中的具体作用，并比较了不同模型和方法的性能。

📝重点思路

🔺相关工作

🔸CoT：是一种广泛使用的从语言模型中引出推理的提示技术，通常被用来通过中间计算回答复杂问题。
🔸CoT评估：目前主要在数学领域做了评估，研究表明在数学以外的领域可能无效。

🔺论文方案

🔸系统元分析：首先对近期文献进行了系统的元分析，比较了CoT与直接回答（DA）在不同任务中的表现。
🔸实验设计：在元分析的基础上，进行了扩展实验，涵盖了20个数据集和14个大语言模型（LLM），在零样本（zero-shot）和少样本（few-shot）提示设置下进行测试。
🔸数据集分类：将数据集分为不同的推理类别，包括常识推理、知识推理、符号推理、数学推理和软推理，以系统地评估CoT在不同类型任务中的表现。
🔸提示策略探索：探索了多种提示策略，以激发语言模型的推理能力，尽管发现不同提示策略之间的性能差异不大。

🔎分析总结

🔸答案格式对CoT的影响不大，远不如预先计划或推理正确反应的影响。
🔸CoT主要在数学和符号推理中有效，而在其他类型的任务中效果有限。
🔸尽管CoT在非数学任务中的总体效果不佳，但在某些与逻辑、数学或符号推理相关的任务中（如BBH），CoT仍显示出一定的优势，原因在于能够执行符号步骤并跟踪其输出。
🔸CoT在符号推理任务中受到工具增强的限制，仅靠规划并不能提高收益，依赖与外部求解器，包括工具求解和符号求解。