中科院分词2013版 支持utf-8

原载于:http://hi.baidu.com/drkevinzhang/item/f116ac056fa8b312eafe38f4

NLPIR汉语分词系统(又名ICTCLAS2013)发布

应各位ICTCLAS用户的要求,张华平博士正式发布ICTCLAS2013 版本,为了与以前工作进行大的区隔,并推广NLPIR自然语言处理与信息检索共享平台,从本版本开始,系统名称调整为NLPIR汉语分词系统。张博士先后倾力打造十余年,内核升级10次,全球用户突破20万,先后获得了2010年钱伟长中文信息处理科学技术奖一等奖,2003年国际SIGHAN分词大赛综合第一名,2002年国内973评测综合第一名。

汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;

访问http://ictclas.nlpir.org/(自然语言处理与信息检索共享平台),您可以获取NLPIR系统的最新版本,我们承诺:非商业应用永久免费,欢迎您关注张华平博士的新浪微博 @ICTCLAS张华平博士 交流。

 

微博分词功能:对博主ID进行nr标示,对转发的会话进行自动分割标示(标示为ssession),URL以及Email进行自动标引。


图1:微博分词展示

新词发现与自适应分词功能:从较长的文本内容中,基于信息交叉熵自动发现新特征语言,并自适应测试语料的语言概率分布模型,实现自适应分词。


图2:自动识别“屌丝”等新词,并自动调整分词结果,实现自适应分词

关键词识别功能:采用信息熵自动计算关键词,包括新词与已知词,下面是对18da报告前面部分内容的关键词提取结果

 


图3:shiba da报告的关键词识别结果


我们将持续采用共享模式,为各位提供各类可执行程序、二次开发API等形式的成果,欢迎各位用户使用并反馈,让我们做得更好。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值