精彩文章转载
文章平均质量分 80
ziyoudefeng
这个作者很懒,什么都没留下…
展开
-
算法杂货铺——分类算法之朴素贝叶斯分类(Naive Bayesian classification)
0、写在前面的话 我个人一直很喜欢算法一类的东西,在我看来算法是人类智慧的精华,其中蕴含着无与伦比的美感。而每次将学过的算法应用到实际中,并解决了实际问题后,那种快感更是我在其它地方体会不到的。 一直想写关于算法的博文,也曾写过零散的两篇,但也许是相比于工程性文章来说太小众,并没有引起大家的兴趣。最近面临毕业找工作,为了能给自己增加筹码,决定再次复习算法方面的知转载 2011-11-07 13:28:21 · 564 阅读 · 0 评论 -
MySQL索引背后的数据结构及算法原理
摘要 本文以MySQL数据库为研究对象,讨论与数据库索引相关的一些话题。特别需要说明的是,MySQL支持诸多存储引擎,而各种存储引擎对索引的支持也各不相同,因此MySQL数据库支持多种索引类型,如BTree索引,哈希索引,全文索引等等。为了避免混乱,本文将只关注于BTree索引,因为这是平常使用MySQL时主要打交道的索引,至于哈希索引和全文索引本文暂不讨论。 文章主要内容分为三个部分。 第转载 2011-11-07 13:11:47 · 470 阅读 · 0 评论 -
bloom filter 程序演示
这是spider url 队列一环的要害之一。 爬虫必然要考虑的问题之一就是url的去重问题,很容易想到的方法是 hashmap/hashtable(md5(url)):程序退出时序列化并写入持久介质,启动时重新读入,反序列化载入内存。或者考虑如Berkeley DB等key-value结构的持久存储方案,可以屏蔽了很多如持久化、高并发、随机/顺序存储等操作。忽略md5的重复几率,在数据量不是太转载 2012-02-22 23:48:12 · 684 阅读 · 0 评论