中科院分词2013版支持utf-8

最新推荐文章于 2019-05-06 19:50:26 发布

xiaoxiansweety

最新推荐文章于 2019-05-06 19:50:26 发布

阅读量1k

点赞数

原载于：http://hi.baidu.com/drkevinzhang/item/f116ac056fa8b312eafe38f4

NLPIR汉语分词系统（又名ICTCLAS2013）发布

应各位ICTCLAS用户的要求，张华平博士正式发布ICTCLAS2013 版本，为了与以前工作进行大的区隔，并推广NLPIR自然语言处理与信息检索共享平台，从本版本开始，系统名称调整为NLPIR汉语分词系统。张博士先后倾力打造十余年，内核升级10次，全球用户突破20万，先后获得了2010年钱伟长中文信息处理科学技术奖一等奖，2003年国际SIGHAN分词大赛综合第一名，2002年国内973评测综合第一名。

汉语分词系统（又名ICTCLAS2013），主要功能包括中文分词；词性标注；命名实体识别；用户词典功能；支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取；

访问http://ictclas.nlpir.org/(自然语言处理与信息检索共享平台)，您可以获取NLPIR系统的最新版本，我们承诺：非商业应用永久免费，欢迎您关注张华平博士的新浪微博 @ICTCLAS张华平博士交流。

微博分词功能：对博主ID进行nr标示，对转发的会话进行自动分割标示（标示为ssession），URL以及Email进行自动标引。

图1：微博分词展示

新词发现与自适应分词功能：从较长的文本内容中，基于信息交叉熵自动发现新特征语言，并自适应测试语料的语言概率分布模型，实现自适应分词。

图2：自动识别“屌丝”等新词，并自动调整分词结果，实现自适应分词

关键词识别功能：采用信息熵自动计算关键词，包括新词与已知词，下面是对18da报告前面部分内容的关键词提取结果

图3：shiba da报告的关键词识别结果

我们将持续采用共享模式，为各位提供各类可执行程序、二次开发API等形式的成果，欢迎各位用户使用并反馈，让我们做得更好。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
中科院分词2013版支持utf-8

原载于：http://hi.baidu.com/drkevinzhang/item/f116ac056fa8b312eafe38f4NLPIR汉语分词系统（又名ICTCLAS2013）发布应各位ICTCLAS用户的要求，张华平博士正式发布ICTCLAS2013 版本，为了与以前工作进行大的区隔，并推广NLPIR自然语言处理与信息检索共享平台，从本版本开始，系统名称调整为NL
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。