Lucene 学习 003

最新推荐文章于 2022-03-13 16:56:36 发布

zhangzhanlei1988

最新推荐文章于 2022-03-13 16:56:36 发布

阅读量47

点赞数

分类专栏： lucene 文章标签： Lucene 学习 003

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhangzhanlei1988/article/details/84522201

版权

lucene 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

package com.zhangzhanlei.lucene;

import java.io.IOException;

import java.util.ArrayList;

import java.util.List;

import org.apache.lucene.analysis.Analyzer;

import org.apache.lucene.analysis.TokenStream;

import org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer;

import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;

import org.apache.lucene.util.Version;

public class SmartChineseAnalyzer_T

{

@SuppressWarnings("resource")

public List<String> analyzerCnStr(String str)

{

List<String> result = new ArrayList<String>();

Analyzer analyzer = new SmartChineseAnalyzer(Version.LUCENE_46,true);

try

{

TokenStream tokenStream = analyzer.tokenStream("field", str);

CharTermAttribute term = tokenStream.addAttribute(CharTermAttribute.class);

tokenStream.reset();

while(tokenStream.incrementToken())

{

result.add(term.toString());

}

tokenStream.end();

tokenStream.close();

}

catch (IOException e)

{

e.printStackTrace();

}

return result;

}

/**

* @param args

*/

public static void main(String[] args)

{

SmartChineseAnalyzer_T analyzer = new SmartChineseAnalyzer_T();

List<String> l = analyzer.analyzerCnStr("对于Lucene4.3开发首先摆在我们面前的第一个必须要解决的问题，就是关于中文分词的问题，因为Lucene毕竟是国外的大牛们开发的，显然会比较侧重英文文章，不过还好，在Lucene的下载包里同步了SmartCN的分词器针对中文发行的，每一次Lucene有新的版本发行，这个包同时更新");

System.out.println(l);

}

}

[对于, lucen, 4, 3, 开发, 首先, 摆, 在, 我们, 面前, 的, 第一, 个, 必须, 要, 解决, 的, 问题, 就, 是, 关于, 中文, 分, 词, 的, 问题, 因为, lucen, 毕竟, 是, 国外, 的, 大, 牛, 们, 开发, 的, 显然, 会, 比较, 侧重, 英文, 文章, 不过, 还, 好, 在, lucen, 的, 下载, 包, 里, 同步, 了, smartcn, 的, 分词, 器, 针对, 中文, 发行, 的, 每, 一, 次, lucen, 有, 新, 的, 版本, 发行, 这个, 包, 同时, 更, 新]

zhangzhanlei1988

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Lucene 学习 003

package com.zhangzhanlei.lucene; import java.io.IOException;import java.util.ArrayList;import java.util.List; import org.apache.lucene.analysis.Analyzer;import org.apache.lucene.analysi...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。