基于词项和基于全文的搜索

最新推荐文章于 2023-06-13 12:21:29 发布

啦啦啦1029

最新推荐文章于 2023-06-13 12:21:29 发布

阅读量347

点赞数

本文链接：https://blog.csdn.net/wnn1029/article/details/107028217

版权

本文介绍了基于Term查询的重要性和特点，包括Term Query、Range Query等，强调了Term查询在 Elasticsearch 中如何处理。此外，讨论了如何通过Constant Score将查询转换为Filter以提高性能。接着，探讨了基于全文的查询，如Match Query，其在索引和搜索时的分词过程，以及如何平衡Precision和Recall。最后，总结了词项与全文搜索的区别和优化策略。

摘要由CSDN通过智能技术生成

基于词项和基于全文的搜索

基于Term查询

Term的重要性
- Term是表达语意的最小单位。搜索和利用统计语言模型进行自然语言处理都需要处理Term。
特点
- Term Level Query:Term Query / Range Query / Exists Query / Prefix Query / Wildcard Query
- 在ES中，Term查询，对输入不做分词，如果想要匹配可以采用多字段匹配。会将输入作为一个整体，在倒排索引中查找准确的词项，并且使用相关度算分公式为每个包含该词项的文档进行相关度算分 - 例如"Apple Store"
- 可以通过 Constant Score 将查询转换成一个Filtering，避免算分，并利用缓存，提高性能

复合查询 - Constant Score 转为Filter

将Query 专成Filter，忽略TF - IDF 计算，避免相关性算分的开销
Filter 可以有效利用缓存（跳过算分，返回的值都是一样的）

基于全文的查询

基于全文本的查找
- Match Query / Match Phrase Query / Query String Query
特点
- 索引和搜索时都会进行分词，查询字符串先传递到一个合适的分词器，然后生成一个供查询的词项列表
- 查询时，先会对输入的查询进行分词，然后每个词项逐个进行底层的查询，最终将结果进行合并。并为每个文档生成一个算分。- 例如查 “Matrix reloaded”，会查到包括Martix 或者 reloaded的所有结果

在这里插入图片描述

本节知识点回顾

基于词项的查找 VS 基于全文的查找
term 不会做分词处理，但是全文本查询会做分词处理
term查询不做分词处理，可以这个操作一下，通过字段 Mapping 控制字段的分词
- “Text” vs “Keyword”
通过参数控制查询的Precision & Recall
复合查询 - Constant Score 查询
- 即便是对 Keyword 进行Term查询，同样会进行算分
- 可以将查询转为Filtering，取消相关性算分的环节，以提高性能