分词
文章平均质量分 86
重回成都
这个作者很懒,什么都没留下…
展开
-
结巴分词1.8.2版本源代码解析(一)
概要说明:结巴分词是基于python的开源分词工具。在其根目录下的结构为.|--analyse|--finalseg|--posseg|--__init__.py|--__main__.py|--_compat.py|--dict.txt其中analyse是对分词结果进行分析的文件夹,提供了TF-IDF算法和textrank算法。finalseg提供了vertb原创 2015-05-27 15:27:26 · 2513 阅读 · 0 评论 -
HMM模型之viterbi算法
1、前言 viterbi算法是HMM模型的三大算法之一。HMM模型解决三大问题:评估、解码和学习。viterbi用于解决解码问题,在自然语言处理中用于解决划分问题,分词是对于句子的划分,viterbi是很好的分词算法。推荐参看的是《HMM学习最佳范例》。这里的术语将参照《HMM最佳学习范例》。关于HMM模型中的数值引用于结巴分词中的源代码。2、初始向量 这里sta原创 2015-06-01 13:40:07 · 2602 阅读 · 0 评论 -
结巴分词源代码解析(二)
本篇分两部分,一、补充说明动态规划求最大概率路径的过程;二、使用viterbi算法处理未登录词。一、动态规划求最大概率路径补充从全模式中看出一句话有多种划分方式,那么哪一种是好的划分方式,最大概率路径认为,如果某个路径下词的联合概率最大,那么这个路径为最好的划分方式。(个人认为这种思想是有缺陷的,我们知道每一个词的出现频率是一个较小的小数,小数相乘结果会受到小数的个数较大影响,原创 2015-05-31 17:22:43 · 2282 阅读 · 0 评论