- 博客(3)
- 收藏
- 关注
原创 使用Python实现Aho-corasick自动机
AC算法,主要用于字符串的匹配,其主要思想是通过模式串构建Trie树,再在Trie上构建fail指针,这样的Trie树就是一个AC自动机,最后则通过AC自动机搜索待处理的文本。 关于AC算法的原理就不讲了,网上一搜多的是,这里直接上Python代码吧,注释都有。class Node(object): def __init__(self): self.next = {}
2017-03-09 16:58:56 1209
原创 机器学习实战SMO算法源码解析
from numpy import *from time import sleepdef loadDataSet(fileName): dataMat = []; labelMat = [] fr = open(fileName) for line in fr.readlines(): lineArr = line.strip().split('\t')
2017-02-27 17:53:50 1324
原创 jieba分词算法源码解析
jieba分词算法源码解析jieba分词readme 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合 对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法 前缀词典def gen_pfdict(self, f):# f 为词典文件
2017-02-13 16:25:01 2194
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人