求大神解决CJK分词器在Lucene4.2中对数字以逗号的形式无法分割

最新推荐文章于 2024-04-07 11:25:17 发布

JohnBanana

最新推荐文章于 2024-04-07 11:25:17 发布

阅读量1.3k

点赞数

分类专栏：问题文章标签： Lucene4.2 CJK

本文链接：https://blog.csdn.net/john_hongming/article/details/12975411

版权

问题专栏收录该内容

1 篇文章 0 订阅

订阅专栏

分词的时候出现的问题求大神帮忙解决

public class Lucene4CJK {

public static void main(String[] args) {

             String text = "我是一个中国人13456 34567 987 1923,2012,345,12356,789,34567456,17812356,789,34567456";
             Analyzer analyzer = new CJKAnalyzer(Version.LUCENE_42);
             Lucene4CJK.analyze(analyzer, text);

}
public static void analyze(Analyzer analyzer, String text){
   System.out.println("-------------> 分词器：" + analyzer.getClass());
   // 对域的预分析
   TokenStream ts;
   try {
    ts = analyzer.tokenStream("content", new StringReader(text));

   ts.reset();
   boolean boo=ts.incrementToken();
   CharTermAttribute termAtt = (CharTermAttribute)ts.addAttribute(CharTermAttribute.class);
   while(boo){
     System.out.println(termAtt.toString());
    boo=ts.incrementToken();
   }

   } catch (IOException e) {
    // TODO Auto-generated catch block
    e.printStackTrace();
   }
  }
  }

分割结果是这样的：

-------------> 分词器：class org.apache.lucene.analysis.cjk.CJKAnalyzer
我是
是一
一个
个中
中国
国人
13456
34567
987
1923,2012,345,12356,789,34567456,17812356,789,34567456

也就是凡是以逗号进行切分的时候是无法分割的！但是在lucene2.* 版本中测试是可以正常分割的！

JohnBanana

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
求大神解决CJK分词器在Lucene4.2中对数字以逗号的形式无法分割

分词的时候出现的问题求大神帮忙解决public class Lucene4CJK { public static void main(String[] args) { String text = "我是一个中国人13456 34567 987 1923,2012,345,12356,789,34567456,17812356,789,
复制链接

扫一扫