截止到现在,我们已经介绍完了全部的Lucene搜索过程,但似乎还遗忘了什么。没错,正是前面反复提到的分词以及它的StandardAnalyzer类。
6. Lucene分析器
6.1 分词
所谓分词,就是将一段文本拆分成多个词。前面我们已经说过,在建立索引时,写入索引并能够被用户检索的是一个个的词条。词条就是通过分析器进行分词和相关处理后的文本单元。只有通过分词才可能让信息检索系统理解用户的检索请求,进而为其搜索相关内容。
上图是搜索引擎的后台模块简图,在此处要告诉读者的是,索引模块和搜索模块是共用同一个分词模块。
6.2 Lucene分析器结构
Lucene的标准分析器由两部分组成
1. 分词器
2. 过滤器
这里所说的过滤器和前文所说的不同,主要用于对用户文本切出来的词做一些处理,如去除敏感词、转换大小写、转换单复数等。
6.3 Lucene分析器实现
Lucene分析器的基类为Analyzer类,我们使用的StandardAnalyzer为其子类。关于其使用,前文已备述,此处不再赘述。关于其底层实现,主要是使用TokenStream。请看下面的代码
//需要进行分词的文本内容
String content = "str1 str2 str3";
//构造一个StringReader
StringReader reader = new StringReader(content);
//构建一个WhitespaceAnalyzer
Analyzer analyzer = new WhitespaceAnalyzer();
//获取TokenStream对象
TokenStream ts = analyzer.tokenStream("", reader);
//开始分词
Token t = null;
while((t = ts.next()) != null){
//打印分词后的结果
System.out.println(t.termText());
}
正是通过next方法来从Reader流中取出一个个词条。