ES模糊查询wildcard的替代方案

背景

1.ES模糊查询wildcard查询极耗机器CPU资源,查询耗时高,当并发量高时影响ES其它进程。
2.用户实际的模糊查询需求大多是左右模糊匹配。

可行性分析

1、match_phrase能够实现词组查询。

比如brown fox会返回匹配…brown fox…的结果,此结果与wildcard查询传入brown fox的查询结果一致。相当于我们通过match_phrase实现wildcard查询效果,但此时只满足一些特许的模糊查询需求。
那如何对match_phrase的功能进行增强,让其能够满足所有条件?
从上面的查询示例可以看出,brown fox会返回匹配…brown fox…的结果,其根本原因在于索引时ES将…brown fox…分词成了brown,fox等单词。所以只要我们能够控制ES分词效果,将会最终满足我们的需求。而ES提供了丰富的分词功能。

2、nGram分词能够实现按指定长度对文本进行分词。

nGram可以指定min_gram,max_gram参数实现不同的分词效果。
例如:min_gram,max_gram配置为5时,quick.brown.fox分词后会产生quick,uick.,ick.b,ck.br,k.bro,.brow,brown,rown.,own.f,wn.fo,n.fox。
这时match_phrase会达到什么效果了?
a.用户输入quick,brown,k.bro等都能够返回quick.brown.fox。
b.用户输入brown.fox,brown.fox会被分词成brown,rown.,own.f等,此时同样会返回quick.brown.fox。
c.用户输入fox(长度小于nGram分词配置的分词长度时),不会返回任何结果。

3、如何正确返回查询条件长度小于5时的结果

利用nGram分词 + term查询可以实现所需查询效果。
nGram分词配置:min_gram配置为1,max_gram配置为4。例如quick将会被分词为q,u,i,… quic,uick。
term查询会对用户输入的条件进行精确匹配,比如输入uic,会返回quick。

方案

查询条件长度小于5时:使用nGram分词 + term查询
查询条件长度大于等于5时:使用nGram分词 + match_phrase查询
 

实施

1、创建索引

PUT index_text_1
{
  "settings": {
    "analysis": {
      "analyzer": {
        "ngram_analyzer_short": {
          "filter": "lowercase",
          "tokenizer": "ngram_tokenizer_short"
        },
        "ngram_analyzer_long": {
          "filter": "lowercase",
          "tokenizer": "ngram_tokenizer_long"
        }
      },
      "tokenizer": {
        "ngram_tokenizer_short": {
          "type": "nGram",
          "min_gram": "1",
          "max_gram": "4"
        },
        "ngram_tokenizer_long": {
          "type": "nGram",
          "min_gram": "5",
          "max_gram": "5"
        }
      }
    }
  },
  "mappings": {
    "title": {
      "properties": {
        "char": {
          "type": "keyword",
          "fields": {
            "long_char": {
              "type": "text",
              "analyzer": "ngram_analyzer_long"
            },
            "short_char": {
              "type": "text",
              "analyzer": "ngram_analyzer_short"
            }
          }
        }
      }
    }
  }
}

2、新增数据

POST /index_text_1/_doc/_bulk
{"index":{"_id":1}}  
{"char":"nHRSPkkXLGm6UsmRbRBFQYRCRXpp6CXrnBiqSR"} 
{"index":{"_id":2}}
{"char":"quick.brown.fox"}
{"index":{"_id":3}}
{"char":"elasticsearch"}

3、查询语句

查询条件长度大于等于5时

GET index_text_1/_search
{
    "query": {
        "match_phrase": {
            "char.long_char": {
                "query": "UsmRbRBFQY"
            }
        }
    }
}

 查询条件长度小于5时

GET index_text_1/_search
{
    "query": {
        "term": {
            "char.short_char": {
                "value": "fox"
            }
        }
    }
}

来源:https://www.cnblogs.com/Vincent-yuan/p/16000922.html

Elasticsearch 的 NGram 分词器使用技巧-腾讯云开发者社区-腾讯云

ES使用Ngram分词器实现wildcard高性能替代方案_es wildcard-CSDN博客

思考

查询条件长度该设置成多少?
值太大,占用的存储资源就多(主要是short_char字段);值太小,long_char字段分词被分的太细,match_phrase查询耗时就会增加。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 好的,Elasticsearch 中的模糊查询可以通过使用模糊查询(Fuzzy Query)和通配符查询(Wildcard Query)来实现。 1. 模糊查询(Fuzzy Query):模糊查询是指在搜索时根据查询条件中的一个词来匹配文档中的一个或多个词,而不是完全匹配该查询条件。模糊查询可以通过使用 “fuzzy” 查询来实现,例如: ``` GET /my_index/_search { "query": { "fuzzy": { "title": { "value": "quick" } } } } ``` 在上面的查询中,会匹配包含 “quick” 以及类似于 “quack”、“quicker”、“quickest” 等单词的文档。 2. 通配符查询(Wildcard Query):通配符查询是指在搜索时使用通配符来匹配文档中的一个或多个词。通配符查询可以通过使用 “wildcard” 查询来实现,例如: ``` GET /my_index/_search { "query": { "wildcard": { "title": { "value": "qu*" } } } } ``` 在上面的查询中,会匹配包含以 “qu” 开头的单词的文档,如 “quick”、“quality”、“question” 等。 需要注意的是,使用模糊查询和通配符查询会影响搜索性能,因此在使用时需要谨慎。同时,Elasticsearch 中还有其他类型的查询,可以根据具体情况选择使用。 ### 回答2: ElasticSearch是一个开源的搜索引擎,拥有强大的全文搜索和分析能力。在ElasticSearch中,模糊查询是一种常见的查询类型,用于找到与指定的搜索词或短语相似或相关的文档。 在ElasticSearch中,模糊查询可以通过使用通配符、模糊匹配、近似匹配和相似度匹配等方式实现。通配符查询可以使用通配符符号(*或?)匹配多个字符或单个字符。模糊匹配则使用模糊符号(~)指示查询应该接受的编辑距离,从而找到与搜索词相似但不完全匹配的文档。 另外,近似匹配允许搜索在单词之间添加或删除字符,以便更好地匹配查询词。相似度匹配则是利用TF-IDF算法计算词项的相对权重,从而找到与搜索词相似度最高的文档。 为了进行模糊查询,需要使用ElasticSearch提供的查询DSL语句。在查询语句中,可以使用模糊查询子句(fuzzy)指定需要进行模糊查询的字段和搜索词,以及匹配的模糊程度等参数。 不过需要注意的是,模糊查询可能会导致查询时间延长和性能下降,特别是在大数据集下。因此,在使用模糊查询时,需要权衡查询的结果精确性和查询性能之间的平衡。 总而言之,ElasticSearch模糊查询提供了灵活的搜索功能,可以帮助用户找到与搜索词相似或相关的文档。但在使用模糊查询时,需要根据具体情况选择合适的查询方式,并注意查询性能的优化。 ### 回答3: Elasticsearch是一个开源的搜索引擎,它提供了丰富的查询功能,包括模糊查询模糊查询是一种在搜索过程中允许存在一定的匹配误差的查询方式。 在Elasticsearch中,我们可以使用模糊查询来处理那些可能存在拼写错误或者其他差异的搜索请求。使用模糊查询可以找到与搜索关键词相似的文档,即使这些文档可能与搜索关键词不完全匹配。 Elasticsearch提供了多种方式来实现模糊查询。其中一种方式是使用模糊匹配查询(fuzzy match query)。通过指定一个最大编辑距离(max_edit_distance),我们可以控制模糊查询的容忍度。编辑距离指的是将一个词语转换成另一个词语所需要的最少操作次数(插入、删除、替换)。 另一种实现模糊查询的方式是使用通配符查询(wildcard query)。通配符查询支持在搜索关键词中使用通配符符号(*或?),表示匹配任意字符(*)或者匹配单个字符(?)。 另外,通过使用编辑距离相似度(edit distance similarity)计算,Elasticsearch还可以为搜索结果打分。这意味着匹配度较高的文档将排在搜索结果列表的前面。 综上所述,Elasticsearch模糊查询功能可以帮助我们处理那些可能存在一定误差的搜索请求,提高搜索的准确性和召回率。通过合理选择最大编辑距离、使用通配符和应用编辑距离相似度计算,我们可以灵活地控制模糊查询的效果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值