导读:近年来,随着NLP技术日益成熟,开源实现的分词工具越来越多,如Ansj、HanLP、盘古分词等。本文我们选取了Jieba进行介绍。
作者:杜振东 涂铭
来源:大数据DT(ID:hzdashuju)
01 Jieba的特点
1. 社区活跃
Jieba在GitHub上已经有25.3k的star数目。社区活跃度高,代表着该项目会持续更新,能够长期使用,用户在实际生产实践中遇到的问题也能够在社区进行反馈并得到解决。
2. 功能丰富
Jieba并不是只有分词这一个功能,它是一个开源框架,提供了很多在分词之上的算法,如关键词提取、词性标注等。
3. 提供多种编程语言实现
Jieba官方提供了Python、C++、Go、R、iOS等多平台多语言支持,不仅如此,还提供了很多热门社区项目的扩展插件,如ElasticSearch、solr、lucene等。在实际项目中,使用Jieba进行扩展十分容易。
4. 使用简单
Jieba的API总体来说并不多,且需要进行的配置并不复杂,适合新手上手。下载完成后,可以使用如下命令进行安装。
pip install jieba
Jieba分词结合了基于规则