Lucene学习笔记(4)

截止到现在,我们已经介绍完了全部的Lucene搜索过程,但似乎还遗忘了什么。没错,正是前面反复提到的分词以及它的StandardAnalyzer类。

6. Lucene分析器

6.1 分词

所谓分词,就是将一段文本拆分成多个词。前面我们已经说过,在建立索引时,写入索引并能够被用户检索的是一个个的词条。词条就是通过分析器进行分词和相关处理后的文本单元。只有通过分词才可能让信息检索系统理解用户的检索请求,进而为其搜索相关内容。


上图是搜索引擎的后台模块简图,在此处要告诉读者的是,索引模块和搜索模块是共用同一个分词模块。


6.2 Lucene分析器结构

Lucene的标准分析器由两部分组成

1. 分词器

2. 过滤器

这里所说的过滤器和前文所说的不同,主要用于对用户文本切出来的词做一些处理,如去除敏感词、转换大小写、转换单复数等。


6.3 Lucene分析器实现

Lucene分析器的基类为Analyzer类,我们使用的StandardAnalyzer为其子类。关于其使用,前文已备述,此处不再赘述。关于其底层实现,主要是使用TokenStream。请看下面的代码

//需要进行分词的文本内容
String content = "str1 str2 str3";
//构造一个StringReader
StringReader reader = new StringReader(content);
//构建一个WhitespaceAnalyzer
Analyzer analyzer = new WhitespaceAnalyzer();

//获取TokenStream对象
TokenStream ts = analyzer.tokenStream("", reader);

//开始分词
Token t = null;
while((t = ts.next()) != null){
	//打印分词后的结果
	System.out.println(t.termText());
}
正是通过next方法来从Reader流中取出一个个词条。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值