2023-02-09 Elasticsearch 模糊搜索

1 prefix 前缀搜索

在这里插入图片描述

以前缀开头的搜索,不计算相关度得分

前缀搜索匹配的是term,而不是field。
前缀搜索的性能很差
前缀搜索没有缓存
前缀搜索尽可能把前缀长度设置的更长

针对于中文分词器
在这里插入图片描述
index_prefixes: 默认 “min_chars” : 2, “max_chars” : 5

PUT /user
{
  "mappings": {
    "properties": {
      "name": {
        "type": "text",
        "analyzer": "ik_max_word",
        "index_prefixes": {
          "min_chars": 2,
          "max_chars": 5
        },
        "fields": {
          "keyword": {
            "type": "keyword",
            "ignore_above": 256
          }
        }
      }
    }
  }
}

在这里插入图片描述

2 wildcard 通配符搜索

通配符运算符是匹配一个或多个字符的占位符。例如,*通配符运算符匹配零个或多个字符。您可以将通配符运算符与其他字符结合使用以创建通配符模式。

通配符匹配的也是term,而不是field
在这里插入图片描述
keyword
在这里插入图片描述
在这里插入图片描述

3 regexp 正则搜索-几乎不用

regexp查询的性能可以根据提供的正则表达式而有所不同。为了提高性能,应避免使用通配符模式,如.或 .?+未经前缀或后缀

ALL
启用所有可选操作符

COMPLEMENT

启用~操作符。可以使用~对下面最短的模式进行否定。例如
a~bc # matches 'adc' and 'aec' but not 'abc'

INTERVAL

启用<>操作符。可以使用<>匹配数值范围。例如
foo<1-100> # matches 'foo1', 'foo2' ... 'foo99', 'foo100'
foo<01-100> # matches 'foo01', 'foo02' ... 'foo99', 'foo100'

INTERSECTION

启用&操作符,它充当AND操作符。如果左边和右边的模式都匹配,则匹配成功。例如:
aaa.+&.+bbb # matches 'aaabbb'

ANYSTRING

启用@操作符。您可以使用@来匹配任何整个字符串。 您可以将@操作符与&~操作符组合起来,创建一个“everything except”逻辑。例如:
@&~(abc.+) # matches everything except terms beginning with 'abc'

在这里插入图片描述
在这里插入图片描述

4 fuzzy 模糊搜索

混淆字符 (box → fox)

缺少字符 (black → lack)

多出字符 (sic → sick)

颠倒次序 (act → cat)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

fuzziness:编辑距离,(012)并非越大越好,召回率高但结果不准确

两段文本之间的Damerau-Levenshtein距离是使一个字符串与另一个字符串匹配所需的插入、删除、替换和调换的数量

距离公式:Levenshtein是lucene的,es改进版:Damerau-Levenshtein,

axe=>aex 
Levenshtein=2Damerau-Levenshtein=1

在这里插入图片描述
transpositions:(可选,布尔值)指示编辑是否包括两个相邻字符的变位(ab→ba)。默认为true。 替换这种情况!!!

在这里插入图片描述
使用fuzziness来指定模糊的范围,ES对fuzziness的的值最高只支持到2,过高的计算距离会导致过高的性能开销。

fuzziness也可以在match中支持使用
在这里插入图片描述
match的优势在于支持分词的模糊搜索,fuzzy不支持分词。

在这里插入图片描述
在这里插入图片描述
“transpositions”: false - 使用Levenshtein计算距离
“transpositions”: true - 使用Damerau-Levenshtein计算距离
在这里插入图片描述
在这里插入图片描述
在数据量特别大的时候,不推荐使用fuzzy进行模糊搜索。

5 match_phrase_prefix 短语前缀

如果要使用match_phrase进行搜索的话,必须同时满足下面3个条件,缺1不可:

match_phrase会分词
被检索字段必须包含match_phrase中的所有词项并且顺序必须是相同的
被检索字段包含的match_phrase中的词项之间不能有其他词项

而match_phrase_prefix与match_phrase虽然有很多相同的地方,但是它多了一个特性:就是它允许在文本的最后一个词项(term)上的前缀匹配。如果是一个单词,比如a,它会匹配文档字段所有以a开头的文档;如果是一个短语,比如 “this is ma” ,他会先在倒排索引中做以ma做前缀搜索,然后在匹配到的doc中做match_phrase查询。
在这里插入图片描述
在这里插入图片描述
match_phrase_prefix参数

  • analyzer 指定何种分析器来对该短语进行分词处理
  • max_expansions 限制匹配的最大词项
  • boost 用于设置该查询的权重
  • slop 允许短语间的词项(term)间隔:slop 参数告诉 match_phrase 查询词条相隔多远时仍然能将文档视为匹配
    什么是相隔多远? 意思是说为了让查询和文档匹配你需要移动词条多少次?

值得注意的是,max_expansions是分片级别的,也就是说即使将max_expansions设置为1,在每个分片中只匹配一个词项,如果有10个分片,就会在10个分片中分别都匹配一个,也就是一共匹配了10个,所以不等于说max_expansions设置为1,返回的结果就一定只有1个。

在这里插入图片描述
简单理解为,max_expansions设置的越小,返回的结果越少,性能越好;设置的越大,返回的结果越多,性能越差。

前面说了,使用match_phrase_prefix搜索词的顺序是不能颠倒的,但是使用slop参数可以允许指定范围内的搜索词的颠倒
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
slop的值就是词项移动的距离。

6 N-gram、edge ngram

min_gram:创建索引所拆分字符的最小阈值
max_gram:创建索引所拆分字符的最大阈值
ngram:从每一个字符开始,按照步长,进行分词,适合前缀中缀检索
edge_ngram:从第一个字符开始,按照步长,进行分词,适合前缀匹配场景
在这里插入图片描述
在这里插入图片描述

使用ngram作为分词器

在这里插入图片描述
在这里插入图片描述
使用match_phrase进行搜索是可以搜索到结果

在这里插入图片描述
但当搜索的词项的长度超过ngram作为分词器所创建索引最大长度时就搜索不到

在这里插入图片描述
同样低过ngram作为分词器所创建索引最小长度时也搜索不到

在这里插入图片描述
看到这里也就明白了,使用ngram对每个分词后的词项创建索引,需要的磁盘空间相当巨大,带来的好处就是做模糊查询的时候可以极大的缩短搜索时间。不过ngram使用起来对磁盘空间的要求相当高,一般会使用edge-ngram来创建索引。因为edge-ngram只支持前缀搜索,而ngram不仅支持前缀搜索,还支持中缀和后缀搜索。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 好的,Elasticsearch 中的模糊查询可以通过使用模糊查询(Fuzzy Query)和通配符查询(Wildcard Query)来实现。 1. 模糊查询(Fuzzy Query):模糊查询是指在搜索时根据查询条件中的一个词来匹配文档中的一个或多个词,而不是完全匹配该查询条件。模糊查询可以通过使用 “fuzzy” 查询来实现,例如: ``` GET /my_index/_search { "query": { "fuzzy": { "title": { "value": "quick" } } } } ``` 在上面的查询中,会匹配包含 “quick” 以及类似于 “quack”、“quicker”、“quickest” 等单词的文档。 2. 通配符查询(Wildcard Query):通配符查询是指在搜索时使用通配符来匹配文档中的一个或多个词。通配符查询可以通过使用 “wildcard” 查询来实现,例如: ``` GET /my_index/_search { "query": { "wildcard": { "title": { "value": "qu*" } } } } ``` 在上面的查询中,会匹配包含以 “qu” 开头的单词的文档,如 “quick”、“quality”、“question” 等。 需要注意的是,使用模糊查询和通配符查询会影响搜索性能,因此在使用时需要谨慎。同时,Elasticsearch 中还有其他类型的查询,可以根据具体情况选择使用。 ### 回答2: ElasticSearch是一个开源的搜索引擎,拥有强大的全文搜索和分析能力。在ElasticSearch中,模糊查询是一种常见的查询类型,用于找到与指定的搜索词或短语相似或相关的文档。 在ElasticSearch中,模糊查询可以通过使用通配符、模糊匹配、近似匹配和相似度匹配等方式实现。通配符查询可以使用通配符符号(*或?)匹配多个字符或单个字符。模糊匹配则使用模糊符号(~)指示查询应该接受的编辑距离,从而找到与搜索词相似但不完全匹配的文档。 另外,近似匹配允许搜索在单词之间添加或删除字符,以便更好地匹配查询词。相似度匹配则是利用TF-IDF算法计算词项的相对权重,从而找到与搜索词相似度最高的文档。 为了进行模糊查询,需要使用ElasticSearch提供的查询DSL语句。在查询语句中,可以使用模糊查询子句(fuzzy)指定需要进行模糊查询的字段和搜索词,以及匹配的模糊程度等参数。 不过需要注意的是,模糊查询可能会导致查询时间延长和性能下降,特别是在大数据集下。因此,在使用模糊查询时,需要权衡查询的结果精确性和查询性能之间的平衡。 总而言之,ElasticSearch模糊查询提供了灵活的搜索功能,可以帮助用户找到与搜索词相似或相关的文档。但在使用模糊查询时,需要根据具体情况选择合适的查询方式,并注意查询性能的优化。 ### 回答3: Elasticsearch是一个开源的搜索引擎,它提供了丰富的查询功能,包括模糊查询。模糊查询是一种在搜索过程中允许存在一定的匹配误差的查询方式。 在Elasticsearch中,我们可以使用模糊查询来处理那些可能存在拼写错误或者其他差异的搜索请求。使用模糊查询可以找到与搜索关键词相似的文档,即使这些文档可能与搜索关键词不完全匹配。 Elasticsearch提供了多种方式来实现模糊查询。其中一种方式是使用模糊匹配查询(fuzzy match query)。通过指定一个最大编辑距离(max_edit_distance),我们可以控制模糊查询的容忍度。编辑距离指的是将一个词语转换成另一个词语所需要的最少操作次数(插入、删除、替换)。 另一种实现模糊查询的方式是使用通配符查询(wildcard query)。通配符查询支持在搜索关键词中使用通配符符号(*或?),表示匹配任意字符(*)或者匹配单个字符(?)。 另外,通过使用编辑距离相似度(edit distance similarity)计算,Elasticsearch还可以为搜索结果打分。这意味着匹配度较高的文档将排在搜索结果列表的前面。 综上所述,Elasticsearch模糊查询功能可以帮助我们处理那些可能存在一定误差的搜索请求,提高搜索的准确性和召回率。通过合理选择最大编辑距离、使用通配符和应用编辑距离相似度计算,我们可以灵活地控制模糊查询的效果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值