Elasticsearch 之(13)lucene的相关度评分TF&IDF算法以及向量空间模型算法

本文深入探讨了Elasticsearch中Lucene的查询处理方式,从布尔模型到TF-IDF算法的详细解释,揭示了_score的计算原理。介绍了向量空间模型,并提及了字段级加权在实际评分函数中的应用。
摘要由CSDN通过智能技术生成
1、boolean model

类似and这种逻辑操作符,先过滤出包含指定term的doc

query "hello world" --> 过滤 --> hello / world / hello & world
bool --> must/must not/should --> 过滤 --> 包含 / 不包含 / 可能包含
doc --> 不打分数 --> 正或反 true or false --> 为了减少后续要计算的doc的数量,提升性能query: hello world

"match": {
    "title": "hello world"
}

"bool": {
    "should": [
        {
            "match": {
                "title": "hello"
             }
         },
         {
            "match": {
                "title": "world"
             }
          }
        ]
}
普通multivalue搜索,转换为bool搜索,boolean model


2、TF/IDF算法介绍
relevance score算法,简单来说,就是计算出,一个索引中的文本,与搜索文本,他们之间的关联匹配程度
Elasticsearch使用的是 term frequency/inverse document frequency算法,简称为TF/IDF算法
Term frequency:搜索文本中的各个词条在field文本中出现了多少次,出现次数越多,就越相关

搜索请求: hello world --> doc.content
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

夏目 "

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值