系统学习Lucene全文检索技术（一）

最新推荐文章于 2021-02-25 11:03:14 发布

dan_zhoudan

最新推荐文章于 2021-02-25 11:03:14 发布

阅读量690

点赞数

分类专栏： Lucene全文检索技术文章标签：数据库大数据 Lucene全文检索技术 Lucene

本文链接：https://blog.csdn.net/zhouth94/article/details/106529776

版权

Lucene全文检索技术专栏收录该内容

5 篇文章 0 订阅

订阅专栏

一、搜索技术理论基础

为了解决数据库压力和速度的问题，我们的数据库就变成了索引库，我们使用Lucene的API的来操作服
务器上的索引库。这样完全和数据库进行了隔离。

二、数据查询方法

1、顺序扫描法

算法描述：
所谓顺序扫描，例如要找内容包含一个字符串的文件，就是一个文档一个文档的看，对于每一个文档，
从头看到尾，如果此文档包含此字符串，则此文档为我们要找的文件，接着看下一个文件，直到扫描完
所有的文件。
优点：
查询准确率高
缺点：
查询速度会随着查询数据量的增大，越来越慢
使用场景：
数据库中的like关键字模糊查询、文本编辑器的Ctrl + F 查询功能

2、倒排索引也叫全文检索算法

Lucene会对文档建立倒排索引
1、提取资源中关键信息，建立索引（目录）
2、搜索时，根据关键字（目录），找到资源的位置
算法描述：
查询前会先将查询的原始文本信息提取组成文档(正文), 对文档进行切分词组成索引(目录), 索引和文档有关联关系, 查询的时候先查询索引, 通过索引找文档的这个过程叫做全文检索。

为什么倒排索引比顺序扫描快?
理解 : 因为索引可以去掉重复的词, 汉语常用的字和词大概等于字典加词典, 常用的英文在牛津词典也有收录.如果用计算机的速度查询, 字典+词典+牛津词典这些内容是非常快的. 但是用这些字典、词典组成的文章却是千千万万不计其数；索引的大小最多也就是字典+词典. 所以通过查询索引, 再通过索引和文档的关联关系找到文档速度比较快.。

顺序扫描法则是直接去逐个查询那些不计其数的文章，计算的速度也会很慢。

三、Lucene介绍

1、什么是全文检索

计算机索引程序通过扫描文章中的每一个词，对每一个词建立一个索引，指明该词在文章中出现的次数和位置。当用户查询时，检索程序就根据事先建立的索引进行查找，并将查找的结果反馈给用户的检索方式

2、什么是Lucene

目前已经有很多应用程序的搜索功能是基于 Lucene 的，比如 Eclipse 的帮助系统的搜索功能。Lucene能够为文本类型的数据建立索引，所以你只要能把你要索引的数据格式转化的文本的，Lucene 就能对你的文档进行索引和搜索。比如你要对一些 HTML 文档、PDF 文档进行索引的话，你就首先需要把HTML 文档和 PDF 文档转化成文本格式的，然后将转化后的内容交给 Lucene 进行索引，然后把创建好的索引文件保存到磁盘或者内存中，最后根据用户输入的查询条件在索引文件上进行查询。不指定要索引的文档的格式也使 Lucene 能够几乎适用于所有的搜索应用程序。

Lucene是一套用于全文检索和搜寻的开源程式库，由Apache软件基金会支持和提供
Lucene提供了一个简单却强大的应用程式接口，能够做全文索引和搜寻，在Java开发环境里
Lucene是一个成熟的免费开放源代码工具
Lucene并不是现成的搜索引擎产品，但可以用来制作搜索引擎产品

四、Lucene全文检索的流程

1、索引和搜索流程图

（1）索引流程

索引库：Lucene的索引库（index）；

若想从索引库中搜索数据，先要进行索引，怎么进行索引呢？

原始文档：可能是数据库，也可能是文本文档，或者来源于互联网；

第三步分拆文档，也就是切分词，把文档当中的一句一句话切分成一个一个词，把切分出来的词作为目录，也就是做成索引；

索引跟文档存在关联关系；把这些内容写入到lucene的索引库中；

（2）搜索流程

通过lucene的查询语法，从索引库中查询，返回结果给我们的项目；

在搜索之前，已经把数据存入索引库（index）中

2、索引流程详解

（1）创建文档

获取原始内容的目的是为了索引，在索引前需要将原始内容创建成文档（Document），文档中包括一个一个的域（Field），域中存储内容。
这里我们可以将磁盘上的一个文件当成一个Document。Document中包括一些Field，如下图：

每个文档可以代表一篇文章或者数据库中一条数据；
Lucene会为每个文档分配一个唯一ID；
文档中存在Field域，是 key : value 的形式。key称为域名，后面存储的value称为域值

我们创建索引后，索引跟文档如何建立关联关系？ --> 索引会记录文档编号。

注意：每个Document可以有多个Field，不同的Document可以有不同的Field，同一个Document可以有相同的Field（域名和域值都相同）

3、分析文档

将原始内容创建为包含域（Field）的文档（document），需要再对域中的内容进行分析，分析成为一个一个的单词。
比如下边的文档经过分析如下：
原文档内容：
vivo X23 8GB+128GB 幻夜蓝全网通4G手机
华为 HUAWEI 麦芒7 6G+64G 亮黑色全网通4G手机
分析后得到的词：
vivo, x23, 8GB, 128GB, 幻夜, 幻夜蓝, 全网, 全网通, 网通, 4G, 手机, 华为, HUAWEI, 麦芒7。。。。

切分后得到的词用来做成索引（目录）。

4、索引文档

对所有文档分析得出的语汇单元进行索引，索引的目的是为了搜索，最终要实现只搜索被索引的语汇单元从而找到Document（文档）。
创建索引是对语汇单元索引，通过词语找文档，这种索引的结构叫倒排索引结构。
倒排索引结构是根据内容（词汇）找文档，如下图：