简单使用lucene

最新推荐文章于 2020-12-08 22:06:22 发布

zaoanmiao

最新推荐文章于 2020-12-08 22:06:22 发布

阅读量315

点赞数

分类专栏： lucene 文章标签： lucene Analyzer

本文链接：https://blog.csdn.net/zaoanmiao/article/details/82751411

版权

lucene 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

此处使用的是lucene自身集合的分词器，仅供入门学习使用

1、在pom.xml文件中导入关于lucene的3个jar包

<dependency>      <!-- lucene自带只能中文分词器jar包 -->
	<groupId>org.apache.lucene</groupId>
	<artifactId>lucene-analyzers-smartcn</artifactId>
	<version>6.0.0</version>
</dependency>
<dependency>      <!-- 测试用到的lucene工具包 -->
	<groupId>org.apache.lucene</groupId>
	<artifactId>lucene-analyzers-common</artifactId>
	<version>6.0.0</version>
</dependency>
<dependency>       <!-- 测试用到的lucene核心包 -->
	<groupId>org.apache.lucene</groupId>
	<artifactId>lucene-core</artifactId>
	<version>6.0.0</version>
</dependency>

2、编写测试类

import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer;
import org.apache.lucene.analysis.core.SimpleAnalyzer;
import org.apache.lucene.analysis.core.WhitespaceAnalyzer;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.junit.Test;

public class LuceneTokenTest{

        //编写一个静态方法,传入的不同分词器,同一个字符串进行分词计算
	public static void printAnalyzer(Analyzer analyzer,String str) throws Exception {
        //将字符串传话成流对象StringReader流
		StringReader reader = new StringReader(str);
        //analyzer底层是通过tokenStream方法来实现的数据流进行分词,属性计算,不同的分词器有不同的tokenStream        		
		TokenStream tokenStream = analyzer.tokenStream("test",reader);
        //重置属性,从头开始
		tokenStream.reset();
        //从分词tokenStream流中获取词项属性,词项:分词的每个最小意义的词,就是一个词项
		CharTermAttribute attribute = tokenStream.getAttribute(CharTermAttribute.class);
	//while循环获取所有的词项输出
                while(tokenStream.incrementToken()){
			System.out.println(attribute.toString());
		}
	}
	
	@Test
	public void run() throws Exception{
		
		Analyzer a1 = new SmartChineseAnalyzer();
		Analyzer a2 = new WhitespaceAnalyzer();
		Analyzer a3 = new SimpleAnalyzer();
		
		String str = "春风又绿江南岸 明月何时照我还。老骥伏枥，志在千里，烈士暮年 壮心不已";
		System.out.println("智能分词器***********************");
		LuceneTokenTest.printAnalyzer(a1, str);
		System.out.println("空格分词器***********************");
		LuceneTokenTest.printAnalyzer(a2, str);
		System.out.println("简单分词器***********************");
		LuceneTokenTest.printAnalyzer(a3, str);		
	}
}

简单理解：

StringReader reader=new StringReader(str);是将传入的str字符串对象变成流对象。

TokenStream tokenStream = analyzer.tokenStream("test", reader);将传入的str的流对象转化成lucene识别的流对象

tokenStream.reset();将流对象重置

CharTermAttribute attribute = tokenStream.getAttribute(CharTermAttribute.class);将流对象拆分成一个个的词项

while(tokenStream.incrementToken()){
System.out.println(attribute.toString());
} 将流对象遍历输出

3、运行结果

智能分词器***********************
春风
又
绿
江南
岸
明月
何时
照
我
还
老骥伏枥
志
在
千
里
烈士
暮年
壮心
不已
空格分词器***********************
春风又绿江南岸
明月何时照我还。老骥伏枥，志在千里，烈士暮年
壮心不已
简单分词器***********************
春风又绿江南岸
明月何时照我还
老骥伏枥
志在千里
烈士暮年
壮心不已

从结果可以看出，智能分词器是将语句拆分成最小有意义的词项，空格分词器只是在有空格的时候才进行拆分，简单分词器就只是遇到标点符号时就进行拆分。

从此案例可以看出Lucene本身自带的分词器有很大的局限性，不能满足我们语言的需求，于是Lucene就定义了Analyer的接口，只需要开发人员实现了这个接口就可以自定义进行分词的计算。

zaoanmiao

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
简单使用lucene

此处使用的是lucene自身集合的分词器，仅供入门学习使用1、在pom.xml文件中导入关于lucene的3个jar包&lt;dependency&gt; &lt;!-- lucene自带只能中文分词器jar包 --&gt; &lt;groupId&gt;org.apache.lucene&lt;/groupId&gt; &lt;artifactId&gt;lucene-a...
复制链接

扫一扫

专栏目录