Elasticsearch 基础

最新推荐文章于 2022-03-17 00:35:33 发布

俺村_俺最帅

最新推荐文章于 2022-03-17 00:35:33 发布

阅读量174

点赞数

本文链接：https://blog.csdn.net/weixin_46949955/article/details/108284692

版权

ElasticSearch

1.1-倒排索引

倒排索引：将文档进行分词，形成词条和id的对应关系即为倒排索引。
以唐诗为例，所处包含“前”的诗句

正向索引：由《静夜思》–>窗前明月光—>“前”字

反向索引：“前”字–>窗前明月光–>《静夜思》

反向索引的实现就是对诗句进行分词，分成单个的词，由词推据，即为反向索引

ES存储和查询的原理

index（索引）：相当于mysql的表

mapping映射：相当于mysql 的表结构

document(文档)：相当于mysql的表中的数据

数据库查询存在的问题：

性能低：使用模糊查询，左边有通配符，不会走索引，会全表扫描，性能低
功能弱：如果以”华为手机“作为条件，查询不出来数据

在这里插入图片描述
ES概念详解
•ElasticSearch是一个基于Lucene的搜索服务器,
•是一个分布式、高扩展、高实时的搜索与数据分析引擎

•基于RESTful web接口

•Elasticsearch是用Java语言开发的，并作为Apache许可条款下的开放源码发布，是一种流行的企业级搜索引擎

•官网：https://www.elastic.co/

应用场景

•搜索：海量数据的查询

•日志数据分析

•实时数据分析

RESTful风格介绍
restful 风格是一种接口的规范,它是基于http协议的 ,每一个url代表一种访问资源,而每一种请求方式代表对资源的不同操作.

客户端使用GET、POST、PUT、DELETE 4个表示操作方式的动词对服务端资源进行操作：

GET：用来获取资源

POST：用来新建资源（也可以用于更新资源）

PUT：用来更新资源

DELETE：用来删除资源

ES数据类型
1.简单数据类型
a. 字符串类型
text：会分词，不支持聚合
keyword：不会分词，将全部内容作为一个词条，支持聚合
这里的聚合,个人理解应该是指类似mysql中的聚合函数相应的操作比如在mysql中我们可以使用sum(求和),group by(分组),等一些聚合函数来筛选出我们想要的数据.而不支持聚合应该就是不允许使用这些聚合函数来去查询数据?
b.数值
c.布尔：boolean
d.二进制：binary
e.范围类型
f.- 日期:date

复杂数据类型
•数组：[ ] Nested: nested (for arrays of JSON objects 数组类型的JSON对象)
•对象：{ } Object: object(for single JSON objects 单个JSON对象)

分词器-介绍

•IKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包

•是一个基于Maven构建的项目

•具有60万字/秒的高速处理能力

•支持用户词典扩展定义

IK分词器有两种分词模式

1.ik_smart模式
粗粒度的拆分,然后分出来的词条相对细粒度的拆分少.
会做最粗粒度的拆分，比如会将“乒乓球明年总冠军”拆分为乒乓球、明年、总冠军。

GET /_analyze
{
  "analyzer": "ik_smart",
  "text": "乒乓球明年总冠军"
}

拆分结果为

{
  "tokens" : [
    {
      "token" : "乒乓球",
      "start_offset" : 0,
      "end_offset" : 3,
      "type" : "CN_WORD",
      "position" : 0
    },
    {
      "token" : "明年",
      "start_offset" : 3,
      "end_offset" : 5,
      "type" : "CN_WORD",
      "position" : 1
    },
    {
      "token" : "总冠军",
      "start_offset" : 5,
      "end_offset" : 8,
      "type" : "CN_WORD",
      "position" : 2
    }
  ]
}

2.ik_max_word模式
最细粒度的拆分,拆分出来的词条比较多

会将文本做最细粒度的拆分，比如会将“乒乓球明年总冠军”拆分为“乒乓球、乒乓、球、明年、总冠军、冠军。

GET /_analyze
{
  "analyzer": "ik_max_word",
  "text": "乒乓球明年总冠军"
}

拆分结果为

{
  "tokens" : [
    {
      "token" : "乒乓球",
      "start_offset" : 0,
      "end_offset" : 3,
      "type" : "CN_WORD",
      "position" : 0
    },
    {
      "token" : "乒乓",
      "start_offset" : 0,
      "end_offset" : 2,
      "type" : "CN_WORD",
      "position" : 1
    },
    {
      "token" : "球",
      "start_offset" : 2,
      "end_offset" : 3,
      "type" : "CN_CHAR",
      "position" : 2
    },
    {
      "token" : "明年",
      "start_offset" : 3,
      "end_offset" : 5,
      "type" : "CN_WORD",
      "position" : 3
    },
    {
      "token" : "总冠军",
      "start_offset" : 5,
      "end_offset" : 8,
      "type" : "CN_WORD",
      "position" : 4
    },
    {
      "token" : "冠军",
      "start_offset" : 6,
      "end_offset" : 8,
      "type" : "CN_WORD",
      "position" : 5
    }
  ]
}

使用IK分词器-查询文档
•词条查询：term
词条查询不会分析查询条件，只有当词条和查询字符串完全匹配时才匹配搜索

GET /person2/_search
{
  "query": {
    "term": {
      "address": {
        "value": "北京"
      }
    }
  }
}

•全文查询：match
全文查询会分析查询条件，先将查询条件进行分词，然后查询，求并集

GET /person2/_search
{
  "query": {
    "match": {
      "address":"北京昌平"
    }
  }
}

俺村_俺最帅

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Elasticsearch 基础

ElasticSearch1.1-倒排索引倒排索引：将文档进行分词，形成词条和id的对应关系即为倒排索引。以唐诗为例，所处包含“前”的诗句正向索引：由《静夜思》–>窗前明月光—>“前”字反向索引：“前”字–>窗前明月光–>《静夜思》反向索引的实现就是对诗句进行分词，分成单个的词，由词推据，即为反向索引ES存储和查询的原理index（索引）：相当于mysql的表mapping映射：相当于mysql 的表结构document(文档)：相当于mysql的表中的数据数据
复制链接

扫一扫