Elasticsearch-1-核心概念和原理

1. 什么是搜索

搜索:通过一个关键词或一段描述,得到你想要的(相关度较高的)结果

2. 如何实现搜索功能?

(1)关系型数据库,例如MySQL

select * from product where brand like '%小米NFC智能手机%'
  • 性能差、不可靠、结果不准确(相关度低)

  • 使用模糊搜索,时间复杂度为O(n),全表扫描,效率较低

  • 如果列没有建立索引的话,还是会进行全表扫描

  • 如果数据库中存在1000万条数据,那么全表扫描就会进行1000万次IO

3. 倒排索引、Lucene和全文检索

(1) 倒排索引的数据结构

  1. 包含这个关键词的document list
  2. 关键词在每个doc中出现的次数 TF term frequence
  3. 关键词在整个索引中出现的次数 IDF inverse doc frequence
  4. 关键词在当前doc中出现的次数
  5. 每个doc的长度,越长相关度越低
  6. 包含这个关键次的所有doc的平均长度

倒排索引–基于Document实现,根据关键词去创建索引

首先对数据库中数据表的列的数据进行分词,然后对搜索关键字进行分词,用分词后的数据去数据库表中进行匹配,匹配到次数较多的id表示搜索的数据的相关度较高,结果更准确。

如下图:简单概念

数据进行拆分后,数据会更大,用空间换时间。

(2) Lucene:jar包,基于Java开发,帮我们创建倒排索引,并且提供了复杂的API

(3)如果使用Lucene做集群实现搜索,会有哪些问题?

  • 节点一旦宕机,数据丢失,后果不堪设想,可用性差

  • 自己维护,麻烦(自己创建管理索引),单台节点的承载请求的能力是有限的,需要人工做负载(雨露均沾)。

4. Elasticsearch : 分布式、高性能、高可用、可伸缩、易维护 ES!=搜索引擎

(1) 基于Lucene的分布式的Restful风格的搜索、存储和分析引擎

(2) 优点:

  • 面向开发者友好,屏蔽了Lucene的复杂特性
  • 集群自动发现(cluster discovery)
  • 自动维护数据在多个节点上的建立
  • 会帮助我们做搜索请求的负载均衡
  • 自动维护冗余副本,保证了部分节点宕机的情况下仍然不会有任何的数据丢失
  • ES基于Lucene提供了很多高级的功能:复合查询、聚合分析、基于地理位置搜索等
  • 对于大公司可以构建几百台服务器的大型分布式集群,处理PB级别数据;对于小公司,开箱即用,门槛低上手简单。
  • 相对于传统数据库,提供了全文检索,同义词处理(美丽的cls>漂亮的cls),相关度排名。聚合分析以及海量数据的近实时(NTR)处理。

(3) 应用领域:

  • 搜索引擎(全文检索、高亮、搜索推荐等)
  • 用户行为日志(用户点击、浏览、收藏、评论)
  • BI(Business Intelligence 商业智能),数据分析:数据挖掘统计。
  • Github:代码托管平台,几千亿行代码,搜索
  • ELK:Elasticsearch (数据存储)、Logstash(日志采集)、Kibana(可视化)

5. ES核心概念

(1)Cluster(集群):每个集群至少包含两个节点

(2)Node:集群中的每个节点,一个节点不代表一台服务器

(3)Field:一个数据字段,与index和type一起,可以定位一个doc

(4)Document:ES最小的数据单元,Json格式

  • Json示例:
{
    "id": 1,
    "name": "小米",
    "price": {
        "标准版": 3999,
        "尊享版": 4999,
        "签名定制版": 1999
    }
}

(5)Type:逻辑上的数据分类,ES7.x取消了Type的概念

(6)Index:一类相同或者类似的Document,比如一个员工索引,商品索引

(7)Shard分片

  • 两种分片类型:
    • primary shard:主分片
      在创建索引的时候,除非手动配置了primary shard的数量,否则es默认配置为5个primary,如果需要修改索引的primary的数量,需要重建索引

    • replica shard:副本分片
      es默认为每个primary shard分配一个replica shard,replica shard数量可动态修改

  • 特点:
    • 每一个shard都是一个Lucene实例,具有完整的创建索引和处理搜索请求的能力。
    • ES会自动在nodes上为我们做Shard均衡。
    • 一个document是不能同时存在于多个Primary Shard中的,但是可以存在于多个RShard中。
    • primary shard不能和他的replica shard存在于同一个节点,这不符合高可用的规范,因为一旦节点宕机,主副分片同时丢失,所以最小的可用配置是两个节点,互为主备。

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值