Lucene学习笔记（4）

最新推荐文章于 2024-10-30 14:20:46 发布

瑶琴遇知音

最新推荐文章于 2024-10-30 14:20:46 发布

阅读量297

点赞数

分类专栏：搜索引擎与网络爬虫文章标签： lucene 搜索分词

本文链接：https://blog.csdn.net/wwb44444/article/details/75675663

版权

搜索引擎与网络爬虫专栏收录该内容

6 篇文章 0 订阅

订阅专栏

截止到现在，我们已经介绍完了全部的Lucene搜索过程，但似乎还遗忘了什么。没错，正是前面反复提到的分词以及它的StandardAnalyzer类。

6. Lucene分析器

6.1 分词

所谓分词，就是将一段文本拆分成多个词。前面我们已经说过，在建立索引时，写入索引并能够被用户检索的是一个个的词条。词条就是通过分析器进行分词和相关处理后的文本单元。只有通过分词才可能让信息检索系统理解用户的检索请求，进而为其搜索相关内容。

上图是搜索引擎的后台模块简图，在此处要告诉读者的是，索引模块和搜索模块是共用同一个分词模块。

6.2 Lucene分析器结构

Lucene的标准分析器由两部分组成

1. 分词器

2. 过滤器

这里所说的过滤器和前文所说的不同，主要用于对用户文本切出来的词做一些处理，如去除敏感词、转换大小写、转换单复数等。

6.3 Lucene分析器实现

Lucene分析器的基类为Analyzer类，我们使用的StandardAnalyzer为其子类。关于其使用，前文已备述，此处不再赘述。关于其底层实现，主要是使用TokenStream。请看下面的代码

//需要进行分词的文本内容
String content = "str1 str2 str3";
//构造一个StringReader
StringReader reader = new StringReader(content);
//构建一个WhitespaceAnalyzer
Analyzer analyzer = new WhitespaceAnalyzer();

//获取TokenStream对象
TokenStream ts = analyzer.tokenStream("", reader);

//开始分词
Token t = null;
while((t = ts.next()) != null){
	//打印分词后的结果
	System.out.println(t.termText());
}

正是通过next方法来从Reader流中取出一个个词条。