分词的时候出现的问题 求大神帮忙解决
public class Lucene4CJK {
public static void main(String[] args) {
String text = "我是一个中国人13456 34567 987 1923,2012,345,12356,789,34567456,17812356,789,34567456";
Analyzer analyzer = new CJKAnalyzer(Version.LUCENE_42);
Lucene4CJK.analyze(analyzer, text);
}
public static void analyze(Analyzer analyzer, String text){
System.out.println("-------------> 分词器:" + analyzer.getClass());
// 对域 的 预分析
TokenStream ts;
try {
ts = analyzer.tokenStream("content", new StringReader(text));
ts.reset();
boolean boo=ts.incrementToken();
CharTermAttribute termAtt = (CharTermAttribute)ts.addAttribute(CharTermAttribute.class);
while(boo){
System.out.println(termAtt.toString());
boo=ts.incrementToken();
}
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
分割结果是这样的 :
-------------> 分词器:class org.apache.lucene.analysis.cjk.CJKAnalyzer
我是
是一
一个
个中
中国
国人
13456
34567
987
1923,2012,345,12356,789,34567456,17812356,789,34567456
也就是凡是以逗号进行切分的时候是无法分割的!但是在lucene2.* 版本中测试是可以正常分割的!