NLP
「已注销」
这个作者很懒,什么都没留下…
展开
-
jieba分词算法源码解析
jieba分词算法源码解析jieba分词readme 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合 对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法 前缀词典def gen_pfdict(self, f):# f 为词典文件原创 2017-02-13 16:25:01 · 2177 阅读 · 0 评论 -
使用Python实现Aho-corasick自动机
AC算法,主要用于字符串的匹配,其主要思想是通过模式串构建Trie树,再在Trie上构建fail指针,这样的Trie树就是一个AC自动机,最后则通过AC自动机搜索待处理的文本。 关于AC算法的原理就不讲了,网上一搜多的是,这里直接上Python代码吧,注释都有。class Node(object): def __init__(self): self.next = {}原创 2017-03-09 16:58:56 · 1186 阅读 · 0 评论