Elasticsearch入门介绍

火_

已于 2022-07-11 18:02:41 修改

阅读量477

点赞数

文章标签：大数据 elasticsearch

于 2022-07-05 17:24:31 首次发布

本文链接：https://blog.csdn.net/weixin_45371233/article/details/125610126

版权

1.什么是Elasticsearch

Elasticsearch是一个基于Lucene的分布式搜索引擎，它提供分布式的实时文件存储和搜索，可扩展性好，并且支持通过HTTP网络接口交互，数据以JSON格式展示。

2.为什么要用Elasticsearch

这里就不得不提到MySQL了，作为目前最常用的关系型数据库之一，MySQL基本可以满足所有我们对数据存储的要求，但是当数据量特别大的情况下，查询效率就会大大降低，这时候肯定有人说：加索引呀，让查询走索引来提高查询效率；确实，加索引能极大提高查询效率，但是索引加的多了也会影响数据的增删改的效率，那就得不偿失了，特别是像模糊查询的情况使用LIKE就不用说了会触发全表扫描而且不会走索引。

MySql5.6版本中InnoDB引擎支持了FULLTEXT索引，可以通过MATCH({加索引的字段名})…AGAINST('{模糊查询值}')语法进行模糊查询；

举例：从test表中的description字段中匹配有‘fire’单词的数据

select * from test where MATCH(description) AGAINST('fire');

通过FULLTEXT索引来进行模糊查询比LIKE速度快很多，但是也存在着精度问题，不区分大小写，并且查询速度也会被数据量影响。

但是，Elasticsearch最大的优点就是快，即使数据量很大也能很快响应；并且Elasticsearch具有多种分词器，比MySQL模糊查询的精度高很多，也更加灵活。

3.Elasticsearch中部分名词解释

Index（索引）：和MySQL里的索引不一样，这里的索引是文档存储的地方，相当于MySQL里的Database的概念

Type（类型）：在Index中区分数据的，相当于MySQL中table的概念，在7.*以后的版本就已经不推荐使用了

Document（文档）：相当于MySQL中row的概念，也就是一行记录，新增一个文档在MySQL中就相当于新增一条记录，在Elasticsearch中会以JSON格式存储，每个文档都必须有一个唯一的ID，如果自己不指定，系统也会自动生成

Term（单词）：文本经过分词器分成的一个个单词，区分大小写

Term Dictionary（单词字典）：单词的集合

Term Index（单词索引）：为了在单词字典中快速定位单词，给单词建立索引

Posting List（倒排表）：简单理解就是文档id集合，还记录了单词在所有文档中的出现次数和偏移位置

4.ELasticsearch为什么这么快（倒排索引）

这跟Elasticsearch的索引方式有关，Elasticsearch使用的是倒排索引，什么是倒排索引呢，简单来说就是通过关键字来定位文档；

举例：

这样一张表在Elasticsearch中会建立这样的索引：

Term	Posting List
张三	[1,2]
李四	[3,4]
王五	5

Term	Posting List
吃饭	[2,4]
喝水	[1,3]
运动	5

Term	Posting List
上海	[1,4]
北京	[2,3]
西安	5

这样子我们通过关键字就可以快速找到包含这个关键字的文档id了，通过文档id就能快速定位到文档；

但是如果数据量很大的话，Term的量也会很大，这时候在Term Dictionary中找Term就会很慢，为此ELasticsearch为Term建立了索引，就是Term Index；Elasticsearch比MySQL速度快也有这个的原因，因为MySQL的索引文件是存储在磁盘里面的，而Elasticsearch的Term Index是存储在内存中的，索引查找速度得到提升；