思维链（Chain-of-Thought, CoT）和自一致提示（Self-Consistency）

最新推荐文章于 2025-04-14 01:54:13 发布

大多_C

最新推荐文章于 2025-04-14 01:54:13 发布

阅读量2k

点赞数 17

文章标签：人工智能

本文链接：https://blog.csdn.net/weixin_46933702/article/details/141890026

版权

思维链（Chain-of-Thought, CoT）和自一致提示（Self-Consistency）是大语言模型（LLM）中两种常用的提示工程方法，用于帮助模型更好地处理复杂推理任务。它们的共同目标是通过明确模型推理过程来提高最终答案的准确性，但方法上有所不同。下面详细介绍这些方法的步骤和机制：

思维链提示的核心思想是将复杂问题分解为一系列可解释的中间步骤。通过明确的推理链条，模型能够逐步解决原本可能超出其直接推理能力的问题。思维链方法特别适用于涉及多步骤推理的任务，如数学题、多重逻辑推理问题等。

自一致提示是在思维链提示基础上进一步发展的技术，旨在提高模型推理的稳健性和准确性。CoT 的生成过程依赖于模型的一次性推理路径，而自一致提示通过采样多个推理路径，并通过边缘化推理路径来选择最可能的最终答案。

第一步：应用 CoT 思维链提示：首先，给出一个需要多步骤推理的问题，提示模型逐步推理并生成一个完整的推理过程和答案。这是自一致方法的基础，即 CoT 提示下的逐步推理。
第二步：采样多条推理路径：从语言模型中采样多次推理路径。每次模型都会生成不同的推理步骤和相应的答案。这是因为大语言模型的生成是基于概率分布的，不同的生成过程可能会导致不同的路径和结果。
第三步：边缘化推理路径，聚合最终答案：通过比较和聚合多个推理路径的答案，找到最一致、出现最频繁的答案，作为最终输出。这种方法相当于在多条推理路径中寻找共识，减少单次推理可能带来的偶然错误。

边缘化（Marginalization）在统计学和概率论中是指对所有可能的事件或结果进行加总或平均，从而获得一个总体的结果。它常用来处理不确定性。

思维链提示：CoT 强调明确的、逐步的推理过程，适用于需要多步骤推理的复杂任务。它通过逐步分解任务，帮助模型理解问题的结构。
自一致提示：自一致提示是在 CoT 基础上进一步优化，通过采样多条推理路径，找出最一致的答案。它适用于对结果准确性要求更高的场景，避免一次性推理路径的偶然性导致错误。

问题：假设你有 3 个苹果，又买了 2 个苹果，现在你有多少个苹果？

思维链提示：

首先，我有 3 个苹果。
接着，我又买了 2 个苹果。
因此，我现在总共有 3 + 2 = 5 个苹果。

最终答案是 5。

问题：假设你有 3 个苹果，又买了 2 个苹果，现在你有多少个苹果？

第一次生成推理路径：

首先，我有 3 个苹果。
接着，我又买了 2 个苹果。
因此，我现在总共有 3 + 2 = 5 个苹果。

第二次生成推理路径：

首先，我有 3 个苹果。
然后，我买了 2 个苹果。
所以总共有 3 + 2 = 5 个苹果。

第三次生成推理路径：

我有 3 个苹果，买了 2 个苹果，所以我有 5 个苹果。

聚合结果：每次的答案都是 5，因此选择答案 5 作为最终结果。