本文包含基于Java的Ansj、jieba、word分词引擎的安装、简单调用、功能介绍。
一、jieba
源码:https://github.com/huaban/jieba-analysis
1、支持分词模式
* Search模式,用于对用户查询词分词
* Index模式,用于对索引文档分词
2、特性
* 支持多种分词模式
* 全角统一转成半角
* 用户词典功能
* conf 目录有整理的搜狗细胞词库
* 因为性能原因,最新的快照版本去除词性标注。
3、新特性:tfidf算法提取关键词
安装
在github上下载源码,解压。
创建自己的项目,将源码中的相应文件拷贝到自定义文件中。需要拷贝的文件如下。
jieba-analysis-master\src\main\java\com\huaban\analysis\jieba全部8个文件;
jieba-analysis-master\src\main\java\com\huaban\analysis\jieba\viterbi全部1个文件;
jieba-analysis-master\src\main\java\com\qianxinyao\analysis\jieba\keyword全部2个文件。
jieba-analysis-master\src\main\resources下的全部6个文件。
完成后自定义项目目录如下: