爬虫
zhangzeguang88
这个作者很懒,什么都没留下…
展开
-
n-gram模型
N-Gram是大词汇连续语音识别中常用的一种语言模型,对中文而言,我们称之为汉语语言模型(CLM, Chinese Language Model)。汉语语言模型利用上下文中相邻词间的搭配信息,在需要把连续无空格的拼音、笔划,或代表字母或笔划的数字,转换成汉字串(即句子)时,可以计算出具有最大概率的句子,从而实现到汉字的自动转换,无需用户手动选择,避开了许多汉字对应一个相同的拼音(或笔划串,或数字串转载 2014-04-12 13:58:52 · 613 阅读 · 0 评论 -
编码的那点事
编码一直是让新手头疼的问题,特别是 GBK、GB2312、UTF-8 这三个比较常见的网页编码的区别,更是让许多新手晕头转向,怎么解释也解释不清楚。但是编码又是那么重要,特别在网页这一块。如果你打出来的不是乱码,而网页中出现了乱码,绝大部分原因就出在了编码上了。此外除了乱码之外,还会出现一些其他问题(例如:IE6 的 CSS 加载问题)等等。潜行者m 写出本文的目的,就是要彻底解释清楚这个编码问题原创 2014-03-25 14:07:16 · 946 阅读 · 0 评论 -
布隆过滤器 序列化与反序列化
我的爬虫url去重采用布隆过滤器。但是考虑到系统停止再次运行后,会丢失布隆过滤器的信息,于是为了让布隆过滤器对象记住原来的值,所以必须对其进行序列化与反序列化。这样才能够保证系统的正常运行。对某个对象进行序列化与反序列化需要让对象所属的类实现序列化接口。我由于采用的布隆过滤器是采用最简单的那种,但由于这个布隆过滤器里面有内部类,所以对该布隆过滤器类和其内部类都要实现序列化接口,千万不能忘了内部类也原创 2014-03-15 19:40:22 · 3224 阅读 · 0 评论 -
布隆过滤器在网咯爬虫中的应用
现状:做爬虫的时候考虑爬下来的url要与已爬过的url(所有的,包括相关与不相关的)进行比较,看是否包含该url,如果包含则舍弃,否则爬行。但已爬行的url数据非常大,在判断是否包含该url时,造成了visited表的全表扫描,代价太大,无疑降低了爬行性能,浪费爬行时间。 Bloom-Filter算法简介: Bloom-Filter,即布隆过滤器,1970年由Bloom中提出。原创 2014-03-07 16:20:40 · 1030 阅读 · 0 评论 -
VM12+CentOS6.5+hadoop2.7.3 搭建hadoop完全分布式集群
VM12+CentOS6.5+hadoop2.7.3 搭建hadoop完全分布式集群写在前边的话: 本人由于在研究生期间从事搜索引擎和挖掘方向,但工作2年确还是爬虫,所以最近想利用课余时间重新熟悉下hadoop,另一个原因也是hadoop方面薪水较高,想做hadoop方面工作,先用虚拟机搭建一个完全分布式,对hadoop应用生态熟悉,为找大数据工作做好准备。原创 2017-01-21 21:51:52 · 1963 阅读 · 0 评论