Elasticsearch 之（13）lucene的相关度评分TF&IDF算法以及向量空间模型算法

最新推荐文章于 2024-06-27 01:11:28 发布

夏目 "

最新推荐文章于 2024-06-27 01:11:28 发布

阅读量2.9k

点赞数 2

分类专栏： Elasticsearch Elasticsearch 文章标签： elasticsearch kibana lucene 相关度评分 TF&amp;amp;amp;amp;amp;amp;IDF

本文链接：https://blog.csdn.net/wuzhiwei549/article/details/80407607

版权

本文深入探讨了Elasticsearch中Lucene的查询处理方式，从布尔模型到TF-IDF算法的详细解释，揭示了_score的计算原理。介绍了向量空间模型，并提及了字段级加权在实际评分函数中的应用。

摘要由CSDN通过智能技术生成

1、boolean model

类似and这种逻辑操作符，先过滤出包含指定term的doc

query "hello world" --> 过滤 --> hello / world / hello & world
bool --> must/must not/should --> 过滤 --> 包含 / 不包含 / 可能包含
doc --> 不打分数 --> 正或反 true or false --> 为了减少后续要计算的doc的数量，提升性能query: hello world

"match": {
    "title": "hello world"
}

"bool": {
    "should": [
        {
            "match": {
                "title": "hello"
             }
         },
         {
            "match": {
                "title": "world"
             }
          }
        ]
}

普通multivalue搜索，转换为bool搜索，boolean model

2、TF/IDF算法介绍

  relevance score算法，简单来说，就是计算出，一个索引中的文本，与搜索文本，他们之间的关联匹配程度 

  Elasticsearch使用的是 term frequency/inverse document frequency算法，简称为TF/IDF算法 

  Term frequency：搜索文本中的各个词条在field文本中出现了多少次，出现次数越多，就越相关 

  搜索请求： hello world --> doc.content 

最低0.47元/天解锁文章

夏目 "

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录