大猫老师小课堂搜索引擎专题:ElasticSearch 的使用方法

传统的关系型数据库例如 MySQL 在使用 like 关键词进行模糊搜索时存在以下几个问题:
1、只能走全表扫描,性能较差;
2、只能按照首尾位进行匹配,无法实现复杂的匹配需求,例如按照 like "%大猫老师%" 是无法检索出只包含大猫或者老师的数据记录的;
3、无法针对搜索结果进行打分。
为了应对海量文档的全文检索,ElasticSearch 应运而生。在这篇文章中,我们将会简析 ElasticSearch 的使用方法,帮助大家迅速入门搜索引擎。

1. 基本概念

术语名称解释
倒排索引将文档内容中的单词作为索引,将包含该词的文档 ID 作为记录的结构
LuceneApache 开源的全文检索引擎工具包,提供了完整的查询引擎和索引引擎,部分语种文本分析引擎
ElasticSearch开源的实时分布式搜索分析引擎,内部使用 Lucene 做索引与搜索。它提供"准实时搜索"能力,并且能动态集群规模,弹性扩容

是不是还是有点懵逼?没事,下面的文章里我们会更加细致地介绍各个概念。

2. 什么是倒排索引

假设我们向搜索引擎存入两个文档:

文档 ID文档内容
1A quick brown fox jumps over the lazy dog.
2A handsome big cat teaches ElasticSearch.

首先,文本分析器将文本进行分词,拆解成多个不同的语素(tokens),大部分情况下一个语素就是一个单词;随后对这些分词进行归一化,提取出词根,例如 foxes 可能被提取为词根 fox,jumps 被提取出 jump 等,最后形成的倒排索引表结构类似于下面的这张表:

词根 term记录表 posting list
big2
brown1
cat2
elasticSearch2
fox1
jump1

倒排索引中每个词根对应的记录表 posting list 除了记录包含了该词根的文档 ID 列表之外,也有可能会包含该词根的词频、在文档中的偏移量等信息。
另外,可以看到倒排索引表针对关键词进行了排序,这样搜索某个关键词时可以通过二分查找降低查询次数。
Lucene 和 ElasticSearch 对倒排索引的数据结构进行了相应的优化。其底层实现我们会放在后面的文章中深入解析。
用户利用 Quick fox 对文档进行检索时,文本分析器会对搜索使用的关键词进行分词和解析,形成 quick 和 fox 两个词根,并根据上面的倒排索引表迅速定位到编号为 1 的文档,即 A quick brown fox jumps over the lazy dog.

3. ElasticSearch 中的基本概念

术语名称MySQL 中的类似概念解释
索引 _index表 table一般情况下把具有相同业务含义和数据结构的文档放在同一个索引下
类型 _type在 7.0.x 版本中已经废弃掉的一个概念,可以不做深入了解
文档 document行 row包含键值对的 JSON 对象,每个文档由多个字段组成,并有唯一的 ID
字段 field字段 column文档所包含的各个键值对中的键
映射 mapping索引 index映射决定了各个字段在搜索引擎中会以什么样的方式被存储和索引;不同于 MySQL 中只需要为部分字段建立索引, ElasticSearch 会为每个字段建立各自的映射关系
Query DSLSQLElasticSearch 用于对文档进行 CRUD 的领域特定语言
相关性评分 _scoreElasticSearch 用于对文档的评分,相关性评分越高,说明该文档与关键词的相关性越高

注意:实际上,在 Elasticsearch 中,我们的数据是被存储和索引在 分片 中,而一个索引仅仅是逻辑上的命名空间,这个命名空间由一个或者多个分片组合在一起。 然而,这是一个内部细节,我们的应用程序根本不应该关心分片,对于应用程序而言,只需知道文档位于一个 索引 内。

4. 开始搜索吧!

查询语句包含两类不同的查询方式:

  1. Query Context:评估文档与关键词的相似程度,按照相似程度进行打分;
  2. Filter Context: 评估文档能否满足筛选条件的要求,只区分文档是否满足要求,不对文档相关性评分有影响。
GET /_search
{
  "query": { 
    "bool": { 
      "should": [
        { "match": { "title":   "Search"        }},
        { "match": { "content": "Elasticsearch" }}
      ],
      "filter": [ 
        { "term":  { "status": "published" }},
        { "range": { "publish_date": { "gte": "2015-01-01" }}}
      ],
      "minimum_should_match" : 1
    }
  }
}

以上面的查询语句为例,最终筛选出的文档满足:
1、status 字段的值一定为 published;
2、publish_date 字段的值一定在2015年1月1日之后;
3、title 字段的值尽可能与 Search 关键词相匹配,content 字段的值尽可能与 Elasticsearch 相匹配,相关程度越高,文档评分越高;
4、should 关键词下的条件至少匹配 1 条。

4.1 全文查询

全文查询是搜索引擎中最广泛使用的功能之一,针对映射关系为 text 的字段可以通过全文查询进行模糊搜索。

查询类型适用场景
match_all直接返回当前索引下的所有文档
match返回对应字段下与关键词匹配的文档并按相关性打分,例如搜索医院名称字段下与浙大最匹配的所有文档
intervals按照指定的关键词顺序检索文档,例如搜索菜单字段下匹配“日本料理”“清酒”的文档,其中“日本料理”必须出现在“清酒”的前面
match_bool_prefix例如输入“quick brown f”,检索出严格包含“quick”“brown”、且某个词的前缀能够匹配“f”的文档。很多同学可能会问这个查询怎么这么奇怪,但是仔细想想这个其实是可以用于在搜索框进行搜索建议的
match_phrase将关键词作为完整的短语去和文档进行匹配,可以设置不同分词的最大距离,例如搜索最匹配“科技大学”的文档,这四个字必须一起出现而不是被拆成“科技”“大学”两个词
multi_match类似于match,但是可以指定多个被检索字段,例如论文检索时希望返回标题字段或者摘要字段中包含“地铁”的文档

4.2 term-level queries 精确匹配

不同于全文查询,term-level queries 不会对文本进行分析,而是只返回结构化数据中能够精确匹配关键词的文档。

查询类型适用场景
exists返回包含该字段的所有文档
term返回对应字段下精确匹配关键词的文档,例如搜索医院等级为三甲的文档
terms返回对应字段下精确匹配多个关键词的文档,例如搜索医院等级为三甲或者二甲的文档
fuzzy返回与关键词在一定编辑距离内的文档,例如搜索菜单字段下与“cake”关键词编辑距离不超过20的所有文档
range例如搜索发布时间在一段时间范围之内的文档
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值