Elasticsearch-6.倒排索引入门以及使用分析器进行分词

最新推荐文章于 2024-05-04 15:37:13 发布

飘然渡沧海

最新推荐文章于 2024-05-04 15:37:13 发布

阅读量357

点赞数

分类专栏： elasticsearch 文章标签： elasticsearch 搜索引擎

本文链接：https://blog.csdn.net/zhougubei/article/details/124024523

版权

elasticsearch 专栏收录该内容

41 篇文章 1 订阅

订阅专栏

Elasticsearch

倒排索引入门

前导：https://zh.wikipedia.org/wiki/%E5%80%92%E6%8E%92%E7%B4%A2%E5%BC%95

假设图书与搜索引擎的索引类比

在这里插入图片描述

正排索引与倒排索引

在这里插入图片描述

倒排索引的核心组成

倒排索引包含两个部分

单词词典 (Term Dictionary)，记录所有文档的单词，记录单词到倒排列表的关联关系
- 单词词典一般比较大，可以通过B +树或哈希拉链法实现，以满足高性能的插入与查询
倒排列表(Posting List) - 记录了单词对应的文档结合，由倒排索引项组成
- 倒排索引项(Posting)
  + 文档ID
  + 词频TF-该单词在文档中出现的次数，用于相关性评分
  + 位置(Position) - 单词在文档中分词的位置。用于语句搜索(phrase query)
  + 偏移(Offset) -记录单词的开始结束位置，实现高亮显示

一个例子-Elasticsearch
在这里插入图片描述

Elasticsearch 的倒排索引

可以指定对某些字段不做索引
可以指定对某些字段不做索引
+ 优点:节省存储空间
+ 缺点:字段无法被搜索.

demo

POST _analyze
{
  "analyzer": "standard",
  "text": "Mastering Elasticsearch"
}

POST _analyze
{
  "analyzer": "standard",
  "text": "Elasticsearch Server"
}

POST _analyze
{
  "analyzer": "standard",
  "text": "Elasticsearch Essentials"
}

分析器

Analysis 也叫分词器，就是将文本转换一系列的单词的过程

Analysis与Analyzer

Analysis一文本分析是把全文本转换一系列单词(term / token)的过程，也叫分词
Analysis是通过Analyzer来实现的
- 可使用Elasticsearch内置的分析器/或者按需定制化分析器
除了在数据写入时转换词条，匹配Query语句时候也需要用相同的分析器对查询语句进行分析

Analyzer 的组成

分词器是专门处理分词的组件，Analyzer 由三部分组成
- Character Filters (针对原始文本处理，例如去除html) / Tokenizer (按照规则切分为单词) / Token Filter (将切分的的单词进行加工，小写，删除stopwords,增加同义词)

在这里插入图片描述

Elasticsearch的内置分词器

Standard Analyzer-默认分词器，按词切分，小写处理
Simple Analyzer一按照非字母切分(符号被过滤) ，小写处理
Stop Analyzer -小写处理，停用词过滤(the， a, is)
Whitespace Analyzer一按照空格切分，不转小写
Keyword Analyzer-不分词，直接将输入当作输出
Patter Analyzer -正则表达式，默认\W+ (非字符分隔)
Language一提供了30多种常见语言的分词器
Customer Analyzer自定义分词器

使用 _analyze API

在这里插入图片描述

api 实例

#Simple Analyzer – 按照非字母切分（符号被过滤），小写处理
#Stop Analyzer – 小写处理，停用词过滤（the，a，is）
#Whitespace Analyzer – 按照空格切分，不转小写
#Keyword Analyzer – 不分词，直接将输入当作输出
#Patter Analyzer – 正则表达式，默认 \W+ (非字符分隔)
#Language – 提供了30多种常见语言的分词器
#2 running Quick brown-foxes leap over lazy dogs in the summer evening

#查看不同的analyzer的效果
#standard
GET _analyze
{
  "analyzer": "standard",
  "text": "2 running Quick brown-foxes leap over lazy dogs in the summer evening."
}

#simpe
GET _analyze
{
  "analyzer": "simple",
  "text": "2 running Quick brown-foxes leap over lazy dogs in the summer evening."
}


GET _analyze
{
  "analyzer": "stop",
  "text": "2 running Quick brown-foxes leap over lazy dogs in the summer evening."
}


#stop
GET _analyze
{
  "analyzer": "whitespace",
  "text": "2 running Quick brown-foxes leap over lazy dogs in the summer evening."
}

#keyword
GET _analyze
{
  "analyzer": "keyword",
  "text": "2 running Quick brown-foxes leap over lazy dogs in the summer evening."
}

GET _analyze
{
  "analyzer": "pattern",
  "text": "2 running Quick brown-foxes leap over lazy dogs in the summer evening."
}


#english
GET _analyze
{
  "analyzer": "english",
  "text": "2 running Quick brown-foxes leap over lazy dogs in the summer evening."
}


POST _analyze
{
  "analyzer": "icu_analyzer",
  "text": "他说的确实在理”"
}


POST _analyze
{
  "analyzer": "standard",
  "text": "他说的确实在理”"
}


POST _analyze
{
  "analyzer": "icu_analyzer",
  "text": "这个苹果不大好吃"
}