分词词典构造
wzhiju
这个作者很懒,什么都没留下…
展开
-
分词词典的构造机制(一)
对于初步接触分词的朋友们来说,分词词典的构造是一件不可小觑的事情。因为词典的好坏直接影响到算法的性能、运行时间。换句话说,分词词典构造的好,将会极大地改观分词的性能,而各种复杂的分词算法,直接依赖于分词词典的构造机制(是进行分词的根基)。下面将分几个部分进行词典构造机制几种方法的介绍。 在这片文章中,根据我所用过的最基础的方法进行词典的构造,即拼音的索引方法。(也是大家最能直接想到的方法) 下...2010-10-05 16:08:17 · 697 阅读 · 0 评论 -
分词词典的构造机制(二)
在这篇文章中,着重介绍了利用三叉树的结构特点来进行分词词典的组织。 三叉树,顾名思义,具有三个分支lower,higher,equal。首先为每一个结点设置“转向词”,也即用来进行比较和搜索的一个字。比如有三个词语,“我们”,“中国”,“人们”;在构造词典时,首先创建树根,root ;root 的“转向词”设置为“我”,root的equal分支为“们”;然后,由于 "中国"....原创 2010-11-09 15:54:35 · 178 阅读 · 0 评论