Natural Language Process
xlvector
heihei
展开
-
N-最短路径分词算法
NSP分词算法是句子粗分的基本算法,在中科院计算所的文章中有详细描述。但是看了不甚明白,今天实现了这个算法,主要用的还是图论的基本算法Dijkstra算法。将分词转化为图的最短路径问题假设要切分一下句子 :主席出现在这里。可将其转化为以下的图:从而,找出这个句子的最短切分的问题就可以转化为找出上图的0-->7最短路径的问题。这里所有边的权值都是1。Dijkstra最短路径算法关于这个算法的描述,网原创 2006-11-09 09:19:00 · 8604 阅读 · 2 评论 -
中文分词 :系统结构
原创 2006-11-11 09:35:00 · 1328 阅读 · 0 评论 -
免费在线语料库
转自http://blog.sina.com.cn/u/3f7d15aa0100042lAcademia Sinica Balanced Corpus of Modern Chinesehttp://www.sinica.edu.tw/SinicaCorpus/Peking University Modern Chinese Corpushttp://ccl.pku.edu.cn/ccl_co转载 2006-11-11 11:17:00 · 5844 阅读 · 0 评论 -
中文分词方面的重要文章
Jianfeng Gao, Mu Lin, Andi Wu, Chang-Ning Huang, Chinese Word Segmentation: A Pragmatic Approach. Microsoft Research 2004. 这是微软亚洲研究院对MSRSeg的实现方法的详细描述,内容非常详细。 Hua-ping Zh原创 2006-11-12 09:54:00 · 1887 阅读 · 0 评论