怎么理解大模型推理时的Top_P参数？

爱睡觉的咋

已于 2024-12-16 20:12:29 修改

阅读量3.6k

点赞数 23

分类专栏： LLM 文章标签： transformer 人工智能 LLM 大模型

于 2024-12-12 22:44:18 首次发布

本文链接：https://blog.csdn.net/weixin_63866037/article/details/144437566

版权

LLM 专栏收录该内容

39 篇文章

订阅专栏

本篇博客介绍一下大模型推理时的Top_P参数，Top_P与Top_K，Beamsearch，temperature 都是什么关系以及该如何选择Top_P参数。

一、什么是Top_P参数？

在大语言模型推理过程中，Top_P参数（也叫核采样）是一种控制生成文本的策略，用于调整生成的多样性和准确性。它的全称是累积概率采样（Cumulative Probability Sampling）。

在文本生成任务中，模型会根据当前的上下文预测下一个单词或标记。在传统的贪婪解码（greedy decoding）中，模型每次都会选择概率最大的单词。然而，这样的策略可能会导致生成的文本过于单一、缺乏多样性。

为了增加多样性，top_p 提供了一种替代方法。它基于模型预测的单词概率来控制生成的单词选择范围。

二、工作原理

Top_P策略： 在每次生成下一个单词时，模型首先计算出所有可能单词的概率分布。然后，将这些单词按照概率从高到低排序，直到累计的概率和超过 Top_P的阈值。例如，如果 Top_P= 0.9，模型会选择概率最高的单词，直到这些单词的累计概率大于或等于 90%。

这样，模型只会从这部分可能的单词中随机选择一个生成。通过调整 Top_P的值，我们可以控制生成文本的多样性。
举个例子
假设模型预测下一个词的概率分布如下（按概率降序排列）：
在这里插入图片描述
如果 Top_P= 0.9，我们会从前两个单词（“apple” 和 “banana”）中随机选择一个，因为它们的累计概率（0.5 + 0.3 = 0.8）还没有达到 0.9。模型会继续加入下一个单词（“cherry”），直到累计概率大于或等于 0.9（0.5 + 0.3 + 0.1 = 0.9）。因此，模型会从 “apple”、“banana” 和 “cherry” 中随机选择一个词作为下一个生成的单词。

三、top_p和top_k是什么关系？

Top_K策略：Top_K只考虑概率最高的 k 个单词，不管它们的累计概率是多少。例如，Top_K= 3 会选择概率最高的 3 个单词，然后从这 3 个单词中随机选择，k是固定的。
Top_P策略：Top_P根据累计概率来选择单词的候选集，其候选单词数目是不固定的，可以动态变化。这种方法更灵活，通常会使得生成的文本更加自然。

四、Top_P和BeamSearch是什么关系？

Top_P和 Beam Search 都是自然语言生成任务中常用的解码策略，用于生成模型输出的文本。虽然它们都旨在改善生成过程，但它们的工作原理和效果有很大的不同。

Beam Search 和 Top_P的主要区别：Beam Search 是一种确定性的策略，它尝试找到最优的序列路径，通过维持多个候选路径来减少错误并提高输出质量。而 Top_P则是一种随机采样策略，它通过限制候选词的累积概率范围来控制多样性，因此生成的文本可能更加多样化，但也可能不如 Beam Search 那样稳定和精确。
Beam Search 和 Top_P可以结合使用：在一些高级的生成模型中，可以将 Top_P和 Beam Search 结合起来。具体来说，可以在 Beam Search 中的每一步进行采样（即在每个候选路径上使用 Top_P进行选择），这可以增加生成的多样性，同时仍然保持 Beam Search 对最优路径的探索。

五、Top_P和temperature 是什么关系？

Top_P和 temperature 都是用于控制大语言模型生成文本时随机性和多样性的参数，它们在调整生成的文本质量和多样性方面有不同的作用。虽然它们的功能有重叠，但它们的工作原理不同，可以相互配合使用，以获得更好的生成效果。
Top_P控制候选词的范围：它限制了候选词的数量或概率范围。通过设置 Top_P，你决定了模型在每一步生成时，能够从哪些单词中选择。Top_P是一个动态的过滤器，它的候选集大小是变化的，取决于单词的概率分布。
temperature 控制概率分布的平滑性：它改变所有单词的概率分布的形状，影响生成时的“选择犹豫度”。较低的 temperature 会使概率分布更加尖锐，模型倾向于选择概率最高的单词。较高的 temperature 会使概率分布更加平滑，生成的文本更加多样化。

六、Top_P的选择

Top_P控制的是从可能的单词中采样的范围。较低的 Top_P会导致生成更加确定和保守的结果，而较高的 top_p 会生成更具多样性和创新性的文本。

低 Top_P值（如 0.7 或更低）
- 适用场景：当你希望生成的文本具有更高的确定性和一致性时，适合选择较低的 Top_P值。较低的 Top_P会让模型更倾向于选择概率较高的单词，从而生成的文本通常更加保守、连贯和符合预期。
- 优点：更高的连贯性：生成的文本更加符合语法和逻辑，减少了出现不相关或不合适单词的概率。更稳定的输出：生成的结果会更接近训练数据中的模式，适合一些需要较为保守、标准的输出场合（如新闻报道、技术文档等）。
- 缺点：多样性较差：文本会较为单一，缺乏创意和多样性，适合重复性较高的任务，但不适合需要创意的场合。
  例如：在文本摘要、对话系统、问答系统中，如果想要结果更加简洁、清晰和一致，可以选择较低的 Top_P 值（如 0.7 或 0.8）。
中等 Top_P值（如 0.8 到 0.95）
- 适用场景：中等的 top_p 值提供了一定的随机性和多样性，同时又保持了文本的合理性。它适用于大多数日常生成任务，能够生成既连贯又富有创意的文本。
- 优点：平衡多样性和连贯性：生成的文本既有创意又能保持较高的连贯性，适合多种场合（如写作助手、内容生成、聊天机器人等）。
  较为自然的输出：文本有时会包含一些创新的表达或意外的单词选择，但通常不会变得过于离题。
  * 缺点：可能出现偶尔的不连贯：虽然生成的文本较为自然，但在某些情况下，可能会偶尔出现一些不太符合上下文的单词，尤其是在处理复杂话题时。
  例如：对于创意写作、内容生成（如文章或小说生成）、对话系统等任务，可以使用 0.8 到 0.9 的 Top_P值。
高 Top_P值（如 0.95 或更高）
- 适用场景：当你希望生成的文本有更多的创意、多样性和不可预测性时，选择较高的 Top_P值。较高的 Top_P值允许模型从更大的词汇空间中进行采样，能够生成更多新颖、意外的文本。
- 优点：更高的创意性：文本更具创造性，生成的内容可能包含更独特、有趣的词汇和表达方式。
  更丰富的多样性：生成的文本不容易变得重复，可以适应一些需要探索性或新颖性的应用场景。
- 缺点：可能会缺乏连贯性：由于允许更多的随机性和不可预测性，生成的文本可能会出现一些不合适或不连贯的部分，尤其是在较复杂的任务中。生成结果不稳定：每次生成的文本可能会大不相同，因此可能不适用于那些要求高一致性和精确性的任务。例如：对于需要较高创意的任务（如诗歌生成、故事创作等）或对话系统中富有多样性的对话，可以选择更高的 Top_P值（如 0.95 或更高）。