基于lucene的案例开发：分词器介绍

最新推荐文章于 2019-01-22 08:55:47 发布

xiaojimanman

最新推荐文章于 2019-01-22 08:55:47 发布

阅读量7.7k

点赞数 4

分类专栏： lucene Lucene案例开发文章标签： lucene java 分词器

本文链接：https://blog.csdn.net/xiaojimanman/article/details/42916755

版权

转载请注明出处：http://blog.csdn.net/xiaojimanman/article/details/42916755

在lucene创建索引的过程中，数据信息的处理是一个十分重要的过程，在这一过程中，主要的部分就是这一篇博客的主题：分词器。在下面简单的demo中，介绍了7中比较常见的分词技术，即：CJKAnalyzer、KeywordAnalyzer、SimpleAnalyzer、StopAnalyzer、WhitespaceAnalyzer、StandardAnalyzer、IKAnalyzer；自己可以通过注释的形式一一验证。源程序如下：

Analyzer分词demo

 /**  
 *@Description:    分词技术demo
 */ 
package com.lulei.lucene.study;  

import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.cjk.CJKAnalyzer;
import org.apache.lucene.analysis.core.KeywordAnalyzer;
import org.apache.lucene.analysis.core.SimpleAnalyzer;
import org.apache.lucene.analysis.core.StopAnalyzer;
import org.apache.lucene.analysis.core.WhitespaceAnalyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.apache.lucene.util.Version;
import org.wltea.analyzer.lucene.IKAnalyzer;
  
public class AnalyzerStudy {

	public static void main(String[] args) throws Exception {
		//需要处理的测试字符串
		String str = "这是一个分词器测试程序，希望大家继续关注我的个人系列博客：基于Lucene的案例开发，这里加一点带空格的标签 LUCENE ja