1. 什么是搜索
搜索:通过一个关键词或一段描述,得到你想要的(相关度较高的)结果
2. 如何实现搜索功能?
(1)关系型数据库,例如MySQL
select * from product where brand like '%小米NFC智能手机%'
-
性能差、不可靠、结果不准确(相关度低)
-
使用模糊搜索,时间复杂度为O(n),全表扫描,效率较低
-
如果列没有建立索引的话,还是会进行全表扫描
-
如果数据库中存在1000万条数据,那么全表扫描就会进行1000万次IO
3. 倒排索引、Lucene和全文检索
(1) 倒排索引的数据结构
- 包含这个关键词的document list
- 关键词在每个doc中出现的次数 TF
term frequence
- 关键词在整个索引中出现的次数 IDF
inverse doc frequence
- 关键词在当前doc中出现的次数
- 每个doc的长度,越长相关度越低
- 包含这个关键次的所有doc的平均长度
倒排索引–基于Document实现,根据关键词去创建索引
首先对数据库中数据表的列的数据进行分词,然后对搜索关键字进行分词,用分词后的数据去数据库表中进行匹配,匹配到次数较多的id表示搜索的数据的相关度较高,结果更准确。
如下图:简单概念
数据进行拆分后,数据会更大,用空间换时间。
(2) Lucene:jar包,基于Java开发,帮我们创建倒排索引,并且提供了复杂的API
(3)如果使用Lucene做集群实现搜索,会有哪些问题?
-
节点一旦宕机,数据丢失,后果不堪设想,可用性差
-
自己维护,麻烦(自己创建管理索引),单台节点的承载请求的能力是有限的,需要人工做负载(雨露均沾)。
4. Elasticsearch : 分布式、高性能、高可用、可伸缩、易维护 ES!=搜索引擎
(1) 基于Lucene的分布式的Restful风格的搜索、存储和分析引擎
(2) 优点:
- 面向开发者友好,屏蔽了Lucene的复杂特性
- 集群自动发现(cluster discovery)
- 自动维护数据在多个节点上的建立
- 会帮助我们做搜索请求的负载均衡
- 自动维护冗余副本,保证了部分节点宕机的情况下仍然不会有任何的数据丢失
- ES基于Lucene提供了很多高级的功能:复合查询、聚合分析、基于地理位置搜索等
- 对于大公司可以构建几百台服务器的大型分布式集群,处理PB级别数据;对于小公司,开箱即用,门槛低上手简单。
- 相对于传统数据库,提供了全文检索,同义词处理(美丽的cls>漂亮的cls),相关度排名。聚合分析以及海量数据的近实时(NTR)处理。
(3) 应用领域:
- 搜索引擎(全文检索、高亮、搜索推荐等)
- 用户行为日志(用户点击、浏览、收藏、评论)
- BI(Business Intelligence 商业智能),数据分析:数据挖掘统计。
- Github:代码托管平台,几千亿行代码,搜索
- ELK:Elasticsearch (数据存储)、Logstash(日志采集)、Kibana(可视化)
5. ES核心概念
(1)Cluster(集群):每个集群至少包含两个节点
(2)Node:集群中的每个节点,一个节点不代表一台服务器
(3)Field:一个数据字段,与index和type一起,可以定位一个doc
(4)Document:ES最小的数据单元,Json格式
- Json示例:
{
"id": 1,
"name": "小米",
"price": {
"标准版": 3999,
"尊享版": 4999,
"签名定制版": 1999
}
}
(5)Type:逻辑上的数据分类,ES7.x取消了Type的概念
(6)Index:一类相同或者类似的Document,比如一个员工索引,商品索引
(7)Shard分片
- 两种分片类型:
-
primary shard:主分片
在创建索引的时候,除非手动配置了primary shard的数量,否则es默认配置为5个primary,如果需要修改索引的primary的数量,需要重建索引 -
replica shard:副本分片
es默认为每个primary shard分配一个replica shard,replica shard数量可动态修改
-
- 特点:
- 每一个shard都是一个Lucene实例,具有完整的创建索引和处理搜索请求的能力。
- ES会自动在nodes上为我们做Shard均衡。
- 一个document是不能同时存在于多个Primary Shard中的,但是可以存在于多个RShard中。
- primary shard不能和他的replica shard存在于同一个节点,这不符合高可用的规范,因为一旦节点宕机,主副分片同时丢失,所以最小的可用配置是两个节点,互为主备。