简单使用lucene

此处使用的是lucene自身集合的分词器,仅供入门学习使用

1、在pom.xml文件中导入关于lucene的3个jar包

<dependency>      <!-- lucene自带只能中文分词器jar包 -->
	<groupId>org.apache.lucene</groupId>
	<artifactId>lucene-analyzers-smartcn</artifactId>
	<version>6.0.0</version>
</dependency>
<dependency>      <!-- 测试用到的lucene工具包 -->
	<groupId>org.apache.lucene</groupId>
	<artifactId>lucene-analyzers-common</artifactId>
	<version>6.0.0</version>
</dependency>
<dependency>       <!-- 测试用到的lucene核心包 -->
	<groupId>org.apache.lucene</groupId>
	<artifactId>lucene-core</artifactId>
	<version>6.0.0</version>
</dependency>

2、编写测试类

import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer;
import org.apache.lucene.analysis.core.SimpleAnalyzer;
import org.apache.lucene.analysis.core.WhitespaceAnalyzer;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.junit.Test;

public class LuceneTokenTest{

        //编写一个静态方法,传入的不同分词器,同一个字符串进行分词计算
	public static void printAnalyzer(Analyzer analyzer,String str) throws Exception {
        //将字符串传话成流对象StringReader流
		StringReader reader = new StringReader(str);
        //analyzer底层是通过tokenStream方法来实现的数据流进行分词,属性计算,不同的分词器有不同的tokenStream        		
		TokenStream tokenStream = analyzer.tokenStream("test",reader);
        //重置属性,从头开始
		tokenStream.reset();
        //从分词tokenStream流中获取词项属性,词项:分词的每个最小意义的词,就是一个词项
		CharTermAttribute attribute = tokenStream.getAttribute(CharTermAttribute.class);
	//while循环获取所有的词项输出
                while(tokenStream.incrementToken()){
			System.out.println(attribute.toString());
		}
	}
	
	@Test
	public void run() throws Exception{
		
		Analyzer a1 = new SmartChineseAnalyzer();
		Analyzer a2 = new WhitespaceAnalyzer();
		Analyzer a3 = new SimpleAnalyzer();
		
		String str = "春风又绿江南岸 明月何时照我还。老骥伏枥,志在千里,烈士暮年 壮心不已";
		System.out.println("智能分词器***********************");
		LuceneTokenTest.printAnalyzer(a1, str);
		System.out.println("空格分词器***********************");
		LuceneTokenTest.printAnalyzer(a2, str);
		System.out.println("简单分词器***********************");
		LuceneTokenTest.printAnalyzer(a3, str);		
	}
}

简单理解:

StringReader reader=new StringReader(str);是将传入的str字符串对象变成流对象。

TokenStream tokenStream = analyzer.tokenStream("test", reader);将传入的str的流对象转化成lucene识别的流对象

tokenStream.reset();将流对象重置

CharTermAttribute attribute = tokenStream.getAttribute(CharTermAttribute.class);将流对象拆分成一个个的词项

while(tokenStream.incrementToken()){
            System.out.println(attribute.toString());
        }  将流对象遍历输出

3、运行结果

智能分词器***********************
春风
又
绿
江南
岸
明月
何时
照
我
还
老骥伏枥
志
在
千
里
烈士
暮年
壮心
不已
空格分词器***********************
春风又绿江南岸
明月何时照我还。老骥伏枥,志在千里,烈士暮年
壮心不已
简单分词器***********************
春风又绿江南岸
明月何时照我还
老骥伏枥
志在千里
烈士暮年
壮心不已

从结果可以看出,智能分词器是将语句拆分成最小有意义的词项,空格分词器只是在有空格的时候才进行拆分,简单分词器就只是遇到标点符号时就进行拆分。

从此案例可以看出Lucene本身自带的分词器有很大的局限性,不能满足我们语言的需求,于是Lucene就定义了Analyer的接口,只需要开发人员实现了这个接口就可以自定义进行分词的计算。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值