ElasticSearch介绍

最新推荐文章于 2022-09-22 17:43:04 发布

wxrnjgwzhx520

最新推荐文章于 2022-09-22 17:43:04 发布

阅读量137

点赞数

文章标签： elasticsearch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wxrnjgwzhx520/article/details/119747386

版权

ElasticSearch介绍

Elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java语言开发的，并作为Apache许可条款下的开放源码发布，是一种流行的企业级搜索引擎。Elasticsearch用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。官方客户端在Java、.NET（C#）、PHP、Python、Apache Groovy、Ruby和许多其他语言中都是可用的。根据DB-Engines的排名显示，Elasticsearch是最受欢迎的企业搜索引擎，其次是Apache Solr，也是基于Lucene。

官方网址：https://www.elastic.co/cn/elasticsearch/

Github：https://github.com/elastic/elasticsearch

总结：

1、elasticsearch是一个基于Lucene的高扩展的分布式搜索服务器，支持开箱即用。

2、elasticsearch隐藏了Lucene的复杂性，对外提供Restful接口来操作索引、搜索。

突出优点：

1.扩展性好，可部署上百台服务器集群，处理PB级数据。

2.近实时的去索引数据、搜索数据。

es和solr选择哪个？elasticsearch 与 solr 比较

1.如果你公司现在用的solr可以满足需求就不要换了。

2.如果你公司准备进行全文检索项目的开发，建议优先考虑elasticsearch，因为像Github这样大规模的搜索都在用它。

原理与应用

1.2.1索引结构

在学习ES的索引结构之前，我们先明白什么是正排索引什么是倒排索引？

在搜索引擎中，数据被爬取后，就会建立index，方便检索。

在工作中经常会听到有人问，你这个index是正排的还是倒排的？那么什么是正排呢？什么又是倒排呢？下面是一些简单的介绍。

网页A中的内容片段：

Tom is a boy.

Tom is a student too.

网页B中的内容片段：

Jon works at school.

Tom's teacher is Jon.

正排索引

正排索引是指文档ID为key，表中记录每个关键词出现的次数，查找时扫描表中的每个文档中字的信息，直到找到所有包含查询关键字的文档。

假设网页A的局部文档ID是 TA，网页B的局部文档ID是 TB。那么对TA进行正排索引建立的表结构是下面这样的：

从上面的介绍可以看出，正排是以 docid 作为索引的，但是在搜索的时候我们基本上都是用关键词来搜索。所以，试想一下，我们搜一个关键字（Tom），当100个网页的10个网页含有Tom这个关键字。但是由于是正排是doc id 作为索引的，所以我们不得不把100个网页都扫描一遍，然后找出其中含有Tom的10个网页。然后再进行rank（排列），sort（排序）等。效率就比较低了。尤其当现在网络上的网页数已经远远超过亿这个数量后，这种方式现在并不适合作为搜索的依赖。

不过与之相比的是，正排这种模式容易维护。由于是采用doc 作为key来存储的，所以新增网页的时候，只要在末尾新增一个key，然后把词、词出现的频率和位置信息分析完成后就可以使用了。

所有正排的优点是：易维护；缺点是搜索的耗时太长；

倒排索引

由于正排的耗时太长缺点，倒排就正好相反，是以word作为关键索引。表中关键字所对应的记录表项记录了出现这个字或词的所有文档，一个表项就是一个字表段，它记录该文档的ID和字符在该文档中出现的位置情况。

倒排包含两部分：

1、由不同的索引词（index term）组成的索引表，称为“词典”（lexicon）。其中包含了各种词汇，以及这些词汇的统计信息（如出现频率nDocs），这些统计信息可以直接用于各种排名算法。

2、由每个索引词出现过的文档集合，以及命中位置等信息构成。也称为“记录表”。就是正排索引产生的那张表。当然这部分可以没有。具体看自己的业务需求了。

下面是一个简单的倒排索引构建，只包含第一部分的。

倒排的优缺点和正排的优缺点整好相反。倒排在构建索引的时候较为耗时且维护成本较高，但是搜索耗时短。

总结：

正排索引是从文档到关键字的映射（已知文档求关键字），倒排索引是从关键字到文档的映射（已知关键字求文档）。

下图是ElasticSearch的索引结构，下边黑色部分是物理结构，上边黄色部分是逻辑结构，逻辑结构也是为了更好的去描述ElasticSearch的工作原理及去使用物理结构中的索引文件。

逻辑结构部分是一个倒排索引表：

1、将要搜索的文档内容分词，所有不重复的词组成分词列表。

2、将搜索的文档最终以Document方式存储起来。

3、每个词和docment都有关联。

如下：

现在，如果我们想搜索quick brown，我们只需要查找包含每个词条的文档：

两个文档都匹配，但是第一个文档比第二个匹配度更高。如果我们使用仅计算匹配词条数量的简单相似性算法，那么，我们可以说，对于我们查询的相关性来讲，第一个文档比第二个文档更佳。

1.2.2 RESTful应用方法

如何使用es？

Elasticsearch提供RESTfulApi接口进行索引、搜索，并且支持多种客户端。

下图是es在项目中的应用方式：

1）用户在前端搜索关键字

2）项目前端通过http方式请求项目服务端

3）项目服务端通过HttpRESTful方式请求ES集群进行搜索

4）ES集群从索引库检索数据。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ElasticSearch介绍

ElasticSearch介绍Elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java语言开发的，并作为Apache许可条款下的开放源码发布，是一种流行的企业级搜索引擎。Elasticsearch用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。官方客户端在Java、.NET（C#）、PHP、Python、Apache Groovy、Ruby和许多其他语言中都是可用的。根
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。