自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 使用Python实现Aho-corasick自动机

AC算法,主要用于字符串的匹配,其主要思想是通过模式串构建Trie树,再在Trie上构建fail指针,这样的Trie树就是一个AC自动机,最后则通过AC自动机搜索待处理的文本。 关于AC算法的原理就不讲了,网上一搜多的是,这里直接上Python代码吧,注释都有。class Node(object): def __init__(self): self.next = {}

2017-03-09 16:58:56 1209

原创 机器学习实战SMO算法源码解析

from numpy import *from time import sleepdef loadDataSet(fileName): dataMat = []; labelMat = [] fr = open(fileName) for line in fr.readlines(): lineArr = line.strip().split('\t')

2017-02-27 17:53:50 1324

原创 jieba分词算法源码解析

jieba分词算法源码解析jieba分词readme 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合 对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法 前缀词典def gen_pfdict(self, f):# f 为词典文件

2017-02-13 16:25:01 2194

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除