Lucene采用自定义分词器

最新推荐文章于 2021-02-24 05:02:12 发布

着凉的石头

最新推荐文章于 2021-02-24 05:02:12 发布

阅读量1k

点赞数

分类专栏：工作文章标签： lucene 分词

本文链接：https://blog.csdn.net/hotallen/article/details/10371981

版权

本文介绍了如何在使用Lucene构建索引时，结合公司的自定义分词器，确保分词一致性。通过创建自定义的SgiAnalyzer类，利用公司的分词服务（PreProcess）进行初步分词，再借助Lucene的WhitespaceTokenizer进行二次分隔。这种方法允许在tokenize方法中添加自定义规则，如停用词处理。

摘要由CSDN通过智能技术生成

项目中用到了lucene构建索引，但是公司有自己的分词器，为了保持跟其它模块的一致性，必须将分词器整合进lucene中，其实网上这样的例子会比较多，不过很多都是不完整的，自己在这里贴出来个完整的，思想比较简单，基本就是按照自己的分词器分完词之后按照空格分隔，然后利用lucene的WhitespaceTokenizer来重新进行分隔。

代码如下：

import java.io.BufferedReader; import java.io.Reader; import java.io.IOException; import java.io.StringReader; import java.util.List; import com.xx.xx.liantong.core.token.PreProcess; import org.apache.commons.lang.StringUtils; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.TokenStream; import org.apache.lucene.analysis.WhitespaceTokenizer; import org.apache.lucene.util.Version; /** * * @author xyl * */ public final class SgiAnalyzer extends Analyzer { private PreProcess processor = null; public void setProcessor(PreProcess processor) { this.processor = processor; } public String readerToString(Reader reader) throws I

最低0.47元/天解锁文章

着凉的石头

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Lucene采用自定义分词器

项目中用到了lucene构建索引，但是公司有自己的分词器，为了保持跟其它模块的一致性，必须将分词器整合进lucene中，其实网上这样的例子会比较多，不过很多都是不完整的，自己在这里贴出来个完整的，思想比较简单，基本就是按照自己的分词器分完词之后按照空格分隔，然后利用lucene的WhitespaceTokenizer来重新进行分隔。代码如下：其中PreProcess是分词服务的客户端，我们
复制链接

扫一扫

专栏目录