原载于:http://hi.baidu.com/drkevinzhang/item/f116ac056fa8b312eafe38f4
NLPIR汉语分词系统(又名ICTCLAS2013)发布
应各位ICTCLAS用户的要求,张华平博士正式发布ICTCLAS2013 版本,为了与以前工作进行大的区隔,并推广NLPIR自然语言处理与信息检索共享平台,从本版本开始,系统名称调整为NLPIR汉语分词系统。张博士先后倾力打造十余年,内核升级10次,全球用户突破20万,先后获得了2010年钱伟长中文信息处理科学技术奖一等奖,2003年国际SIGHAN分词大赛综合第一名,2002年国内973评测综合第一名。
汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;
访问http://ictclas.nlpir.org/(自然语言处理与信息检索共享平台),您可以获取NLPIR系统的最新版本,我们承诺:非商业应用永久免费,欢迎您关注张华平博士的新浪微博 @ICTCLAS张华平博士 交流。
微博分词功能:对博主ID进行nr标示,对转发的会话进行自动分割标示(标示为ssession),URL以及Email进行自动标引。
图1:微博分词展示
新词发现与自适应分词功能:从较长的文本内容中,基于信息交叉熵自动发现新特征语言,并自适应测试语料的语言概率分布模型,实现自适应分词。
图2:自动识别“屌丝”等新词,并自动调整分词结果,实现自适应分词
关键词识别功能:采用信息熵自动计算关键词,包括新词与已知词,下面是对18da报告前面部分内容的关键词提取结果
图3:shiba da报告的关键词识别结果
我们将持续采用共享模式,为各位提供各类可执行程序、二次开发API等形式的成果,欢迎各位用户使用并反馈,让我们做得更好。