全文搜索简介

最新推荐文章于 2024-05-22 09:11:28 发布

「已注销」

最新推荐文章于 2024-05-22 09:11:28 发布

阅读量128

点赞数

文章标签：分布式搜索引擎数据库 java mysql

本文链接：https://blog.csdn.net/weixin_47074883/article/details/108678332

版权

顺序扫描
从前往后依次扫描，效率低下。比如在一篇文章中搜索“java”，会把这篇文章从前往后扫描，标出“java”出现的地方。
全文搜索
从⾮结构化数据中提取关键字，组织为索引。对每一个词都建立一个索引，指明该词在非结构化数据(比如一篇文章)中出现的次数和位置。用户搜索时根据事先建立的索引来查找，将查找结果反馈给用户。检索效率很高。
以上也是全文所搜引擎的原理。

对非结构化数据的搜索支持好。关系型数据库对结构化数据的支持较差。
搜索性能高。在海量数据(GB、TB、PB级别)下，搜索性能极高。面对这种量级的数据，关系型数据库无能为力。
搜索灵活。搜索某个关键字，可以给出相关提示|预选项；会自动纠错，比如关键字打成了javb，会返回java的搜索结果。关系数据库的模糊查询其实是精确匹配的，没有这么智能。
索引维护容易。如果用关系数据库搞全文索引，insert、update都会重新构建索引，不好维护。

以上也是为什么不使用关系数据库做全文检索的原因。

Lucene是⼀个Java写的全⽂搜索引擎。Lucene不是⼀个完整的应⽤程序，只是⼀个代码库、API，⽤于向应⽤程序添加搜索功能。

Lucene很强大，但集成使用很复杂，Solr、ES都是基于Lucene的，对Lucene进行了集成、封装，简化了操作。

十分成熟的一款搜索引擎，提供分布式索引、复制、负载均衡查询以及⾃动故障转移和恢复，⾼可靠、高容错、可扩展、实时索引，常用于企业级应用。

Netflix、eBay、Instagram、亚⻢逊都在使⽤Solr。

后起之秀，提供Restful风格的接口，分布式搜索，数据分析、分组、聚合。

维基百科、Stack Overflow、GitHub都在使用ES。

ElasticSearch的使用场景：论坛、电商⽹站、⽇志数据分析等需要站内检索海量纯文本的项目。

关注