IKAnalyzer中文分词器V3.0使用手册

1.IKAnalyzer 3.0介绍
IK Analyzer 是一个开源的,基于java 语言开发的轻量级的中文分词工具包。从2006
年12 月推出1.0 版开始, IKAnalyzer 已经推出了3 个大版本。最初,它是以开源项目
Luence 为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IK
Analyzer 3.0 则发展为面向Java 的公用分词组件,独立于Lucene 项目,同时提供了对
Lucene 的默认优化实现。
1.1 IK Analyzer 3.0结构设计


1.2 IK Analyzer 3.0特性


采用了特有的“正向迭代最细粒度切分算法“,具有50 万字/秒的高速处理能力。
采用了多子处理器分析模式,支持:英文字母(IP 地址、Email、URL)、数字(日期,
常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理。
优化的词典存储,更小的内存占用。支持用户词典扩展定义
针对Lucene 全文检索优化的查询分析器IKQueryParser(作者吐血推荐);采用歧义分
析算法优化查询关键字的搜索排列组合,能极大的提高Lucene 检索的命中率。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值