全文检索的概念
全文检索是计算机程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置。当用户查询时根据建立的索引查找,类似于通过字典的检索字表查字的过程。
Lucene简介
Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。
搭建Lucene环境
方法一:直接从Apache.org官网下载Lucene包
这里我使用的是5.5.4版本,
下载后解压,这里从文件夹中可以找到需要的jar包
导入需要的核心包
方法二:使用maven添加Lucene的jar包
<!--Lucene版本-->
<properties>
<Lucene.version>5.5.4</Lucene.version>
</properties>
<dependencies>
<!--核心包-->
<dependency>
<groupId>org.apache.lucene</groupId>
<artifactId>lucene-core</artifactId>
<version>${Lucene.version}</version>
</dependency>
<!--分词器-->
<dependency>
<groupId>org.apache.lucene</groupId>
<artifactId>lucene-analyzers-common</artifactId>
<version>${Lucene.version}</version>
</dependency>
<!--解析器-->
<dependency>
<groupId>org.apache.lucene</groupId>
<artifactId>lucene-queryparser</artifactId>
<version>${Lucene.version}</version>
</dependency>
<!--高亮-->
<dependency>
<groupId>org.apache.lucene</groupId>
<artifactId>lucene-highlighter</artifactId>
<version>${Lucene.version}</version>
</dependency>
<dependencies>