Java 中文分词引擎对比

本文比较了基于Java的Ansj、jieba、word分词引擎,包括它们的安装、功能和性能。jieba支持多种分词模式,Ansj以高速度和高准确率为特点,word则提供丰富的分词算法和文本相似度计算。对于需要词性标注的场景,jieba最新版已移除该功能。
摘要由CSDN通过智能技术生成

本文包含基于Java的Ansj、jieba、word分词引擎的安装、简单调用、功能介绍。

一、jieba

源码:https://github.com/huaban/jieba-analysis

1、支持分词模式

* Search模式,用于对用户查询词分词

* Index模式,用于对索引文档分词

2、特性

* 支持多种分词模式

* 全角统一转成半角

* 用户词典功能

* conf 目录有整理的搜狗细胞词库

* 因为性能原因,最新的快照版本去除词性标注

3、新特性:tfidf算法提取关键词

 

安装

在github上下载源码,解压。

创建自己的项目,将源码中的相应文件拷贝到自定义文件中。需要拷贝的文件如下。

jieba-analysis-master\src\main\java\com\huaban\analysis\jieba全部8个文件;

jieba-analysis-master\src\main\java\com\huaban\analysis\jieba\viterbi全部1个文件;

jieba-analysis-master\src\main\java\com\qianxinyao\analysis\jieba\keyword全部2个文件。

jieba-analysis-master\src\main\resources下的全部6个文件。

完成后自定义项目目录如下:

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值