通俗详解：什么是 n-gram 重叠得分？

最新推荐文章于 2025-11-17 11:02:52 发布

原创最新推荐文章于 2025-11-17 11:02:52 发布 · 542 阅读

CC 4.0 BY-SA版权

文章标签：

77 篇文章

订阅专栏

https://python.langchain.com.cn/docs/modules/model_io/prompts/example_selectors/ngram_overlap

通俗详解：什么是n-gram重叠得分？

n-gram重叠得分是衡量两个句子（或文本）在“连续单词序列”层面相似度的指标，核心作用是判断“用户输入”和“示例句子”的相关性——得分越高，说明两者的语言模式越接近，这也是LangChain中NGramOverlapExampleSelector选择示例的核心依据。

下面从“基础概念→计算逻辑→实际场景”一步步拆解，全程结合你之前接触的翻译任务示例（如“Spot can run.”），确保好懂且不偏离之前的使用场景。

n-gram的本质是“连续的n个单词组成的片段”，其中：

举个具体例子（用之前的英文示例，和LangChain场景一致）：
句子：Spot can run.（去掉标点不影响核心，实际计算会忽略标点/大小写）

再比如用户输入 Spot can run fast.：

“重叠”就是两个句子之间共有的n-gram片段——简单说，就是“你有我也有”的连续单词序列。

还是用之前的场景举例：
用户输入：Spot can run fast.（简称“输入句”）
示例句子1：Spot can run.（简称“示例1”）
示例句子2：My dog barks.（简称“示例2”）

以最常用的2-gram为例：

重叠得分的计算逻辑很简单，本质是“共同拥有的n-gram数量 ÷ 两个句子总共的独特n-gram数量”（专业叫“Jaccard相似度”），最终得分范围是 0.0 ~ 1.0：

输入句 vs 示例1：

共同的2-gram数量：2个（Spot can、can run）；
两个句子总共的独特2-gram数量：输入句有3个 + 示例1有2个 - 重复的2个 = 3个（Spot can、can run、run fast）；
重叠得分 = 2 ÷ 3 ≈ 0.67（得分很高，说明示例1和输入句相关性强）。

输入句 vs 示例2：

在你之前学的NGramOverlapExampleSelector中，n-gram重叠得分的作用是：

比如之前的测试场景：

输入句Spot can run fast.和示例1Spot can run.得分≈0.67，所以被排在最前面；
示例See Spot run.的2-gram是See Spot、Spot run，和输入句的重叠n-gram只有Spot相关（1-gram层面），得分低于示例1，所以排在第二位；
示例2My dog barks.得分=0.0，阈值设为0.0时就会被排除。