1. Java自然语言处理 LingPipe
LingPipe是一个自然语言处理的Java开源工具包。LingPipe目前已有很丰富的功能,包括主题分类(Top Classification)、命名实体识别(Named EntityRecognition)、词性标注(Part-of Speech Tagging)、句题检测(Sentence Detection)、查询拼写检查(Query Spell Checking)、兴趣短语检测(Interseting PhraseDetection)、聚类(Clustering)、字符语言建模(Character LanguageModeling)、医学文献下载/解析/索引(MEDLINE Download,Parsing and Indexing)、数据库文本挖掘(Database Text Mining)、中文分词(Chinese Word Segmentation)、情感分析(Sentiment Analysis)、语言辨别(Language Identification)等API。
下载链接:http://alias-i.com/lingpipe/web/download.html
2.中文自然语言处理工具包 FudanNLP
FudanNLP主要是为中文自然语言处理而开发的工具包,也包含为实现这些任务的机器学习算法和数据集。
演示地址: http://jkx.fudan.edu.cn/nlp/query
FudanNLP目前实现的内容如下:
1. 中文处理工具
-
中文分词
-
词性标注
-
实体名识别
-
句法分析
-
时间表达式识别
2. 信息检索
-
文本分类
-
新闻聚类
3. 机器学习
-
Average Perceptron
-
Passive-aggressive Algorithm
-
K-means
-
Exact Inference
下载链接:http://code.google.com/p/fudannlp/downloads/list
3.自然语言处理工具 OpenNLP
OpenNLP 是一个机器学习工具包,用于处理自然语言文本。支持大多数常用的 NLP 任务,例如:标识化、句子切分、部分词性标注、名称抽取、组块、解析等。
4.自然语言处理工具 CRF++
CRF++是著名的条件随机场开源工具,也是目前综合性能最佳的CRF工具。CRF++本身已经是个比较老的工具了,但鉴于其性能较好,仍然是自然语言处理很重要的一个工具。
NlpBamboo 中文分词库在使用该工具。
下载链接:http://sourceforge.net/projects/crfpp/files/
5、Stanford CoreNLP斯坦福大学NLP
下载地址:http://search.maven.org/#browse%7C11864822