IKAnaylzer分词,词库中包括特殊字符的处理

1.原来的分词结果
    
    词库内容包含特殊字符:
 
words. add( "()");
words. add( "-L-");
words. add( "atppro-S");
 
     测试String:志向(心理学)芳香-L-氨基酸脱羧酶类,atp柠檬酸(pro-S)裂合酶

    结果:
   
     [志向, 心理学, 芳香, l-, 氨基酸, 脱羧, 酶类, atp, 柠檬酸, pro-s, 裂合酶]
    
2.修改IKAnaylzer的org.wltea.analyzer.core.CharacterUtil
 
 
/**
 * IK    5.0
 * IK Analyzer release 5.0
 * 
 * Licensed to the Apache Software Foundation (ASF) under one or more
 * contributor license agreements.  See the NOTICE file distributed with
 * this work for additional information regarding copyright ownership.
 * The ASF licenses this file to You under the Apache License, Version 2.0
 * (the "License"); you may not use this file except in compliance with
 * the License.  You may obtain a copy of the License at
 *
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 *
 * (linliangyi2005 @gmail .com)
 *  2012
 * provided by Linliangyi and copyright 2012 by Oolong studio
 * 
 * 
 */
package  org. wltea. analyzer. core;
/**
 *
 * 
 */
class  CharacterUtil {
    
     public  static  final  int  CHAR_USELESS  =  0;
    
     public  static  final  int  CHAR_ARABIC  =  0X00000001;
    
     public  static  final  int  CHAR_ENGLISH  =  0X00000002;
    
     public  static  final  int  CHAR_CHINESE  =  0X00000004;
    
     public  static  final  int  CHAR_OTHER_CJK  =  0X00000008;
    
    
//  Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS  4E00-9FBFCJK 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值