中文分词
文章平均质量分 84
nciaebupt
学生,BUPT,ML,NLP,IR
展开
-
MMSEG :一个基于最大匹配算法的两种变体的中文单词识别系统
发表日期: 1996-04-29 更新日期: 1998-03-06 文档更新: 2000-03-12 许可: 非商业使用情况下免费 Copyright 1996-2006 Chih-Hao Tsai (Email: hao520@yahoo.com) 摘要 中文文本在计算分析中一个问题是中文文本在印刷时缺少单词的边界,由于单词是一个基本的语义单元,因此有必要识别中文文本的单词以让转载 2012-10-26 11:10:42 · 2381 阅读 · 0 评论 -
关于MMSEG分词算法
MMSEG是中文分词中一个常见的、基于词典的分词算法(作者主页:http://chtsai.org/index_tw.html),简单、效果相对较好。由于它的简易直观性,实现起来不是很复杂,运行速度也比较快。关于算法的原文,可以参 见:http://technology.chtsai.org/mmseg/ 总的来说现在的中文分词算法,大概可以笼统的分为两大类:一种基于词典的,一种是非基于词典转载 2012-10-26 10:58:48 · 658 阅读 · 0 评论 -
中文分词软件概览
中文分词库IKAnalyzer IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出 了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为... 中文分词库Paoding 庖丁中文分词库是一个使转载 2012-10-26 15:00:14 · 3323 阅读 · 0 评论