Lucene TFIDFSimilarity评分公式详解

最新推荐文章于 2025-05-07 19:31:35 发布

置顶

破晓初

最新推荐文章于 2025-05-07 19:31:35 发布

阅读量4k

点赞数 1

分类专栏： lucene Lucene/Solr 文章标签： lucene 评分公式评分公式详解 Similarity queryNorm

本文链接：https://blog.csdn.net/zteny/article/details/57366074

版权

本文详细解析了Lucene的TFIDFSimilarity评分公式，从理论公式出发，探讨了内积计算、coord因子、boost的影响以及doc-len-norm(d)的作用。通过公式推导，展示了如何从原始理论公式简化到实际应用公式，帮助理解Lucene的评分过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、预热

TFIDFSimilarity曾经是Lucene/Solr默认评分公式，但是从lucene-6.0开始已经改成BM25Similary了（详见Lucene-6789)。但我们今天看的依然是TFIDFSimilarity，因为它相对简单一些，对我们理解评分过程有好处。

首先假定你知道怎么把一篇文档转化成一个空间向量，并且知道空间向量模型。

接下来先来统一一下术语和记号
q : query，表示一个查询
d : document，表示一篇文档

V(q) : $\vec{q}$ 表示Query的向量
V(d) : $\vec{d}$ 表示Document的向量
|V(q)| : $|\vec{q}|$ 表示Query向量的归一化
|V(d)| : $|\vec{d}|$ 表示Document向量的归一化

在看TFIDFSimilarity之前，我们先看简单复习几个简单的公式。

余弦定理
$cosine\_similarity(q,d) = \frac{V(q) · V(q)}{|V(q)| \times |V(d)|}$ ，用余弦定理通过计算两向量的夹角来表示两文本的相似，这是一切的基础。

这里沿*Lucene Docs的写法， $cosine\_similarity(q,d)$ 而不是用 $s c o r e (q, d)$ 的原因是相似度不是每个最终得分，相似度只是评分过程比较重要的一个因素而已。*建议你还是先看看TFIDFSimilarty的官方文档，它讲得相当完整也很细**。

tf-idf公式
tf-idf算法是一种非常常见算法，用来计算文本每个权重的。
tf-idf算法的原理如果词条在文档出频率越高，则词条权重越高；如词条在越多篇文档出现，而词条的权重越低。具体计算如下：
$t f i d f (t) = t f (t) * i d f (t)$
$\sqrt{frequency}$
$\log{\frac{doc\_count+1}{doc\_freq+1}}$
$\sqrt{frequency} \times (1 + \log{\frac{doc\_count+1}{doc\_freq+1}})$

对于VSM而言，tf-idf算法并不是必须，甚至权重的引入也不是必须。也就是只需要把每个词转化为一个数值即可，可以用词条的HashCode、词包的下标等等。
当然VSM模型也不是计算相似度得分的唯一算法，Lucene6.0开始默认使用BM25模型(BM25Similarity)。
故名思义，TFIDFSimilarity即是用TFIDF作为VSM向量的权重来计算相似度的打分器。

二、开始

原想从两个字符串的相似计算开始来推导我们Lucene的评分公式的，但这样的话篇幅太长太啰嗦太复杂。因此选择从Lucene的公式出发来看全公式每个细节的含义，一步步变化和计算最终推导出实践公式。

2.1 理论公式

我们先看一下，Lucene TFIDFSimilarity给出的理论评分公式：
$coord\_factor(q,d) \times query\_boost(q) \times \frac{V(q)·V(d)}{|V(q)|} \times doc\_len\_norm(d) \times doc\_boost(d)$