- 博客(8)
- 资源 (4)
- 问答 (1)
- 收藏
- 关注
原创 《自己动手写网络爬虫》笔记6-使用布隆过滤器实现Visited表
在企业级搜索引擎中,常用一个称为布隆过滤器(Bloom Filter)的算法来实现对已经抓取过的URL进行过滤。布隆过滤器算法我们经常要判断一个元素是否在一个集合里面,最直接的方法是将集合中的全部元素存储在计算机中,遇到一个新元素时,将它和集合中的元素直接比较。一般来讲,计算机中的集合是用哈希表(Hash Table)来存储的。它的好处是快速而准确,缺点是浪费存储空间。当集合比较小的时候,这个问题
2016-12-20 15:23:33 708
原创 《自己动手写网络爬虫》笔记5-设计爬虫对列
之前使用内存数据结构(队列或者链表)来说实现爬虫队列,但是在一些大型的搜索引擎中大搞斗殴十几亿的URL需要抓取。因此,内存数据结构并不适用于这些应用,最适合的一种方法是使用内存数据库,或者直接使用数据库来存储这些URL。本节讲的是一种非常流行的内存数据库——Berkeley DB。爬虫队列的特点能够存储海量数据,当数据超出内存限制的时候,能够固化在硬盘上存取数据速度非常快能够支持多线程访问
2016-12-20 11:00:17 2115 2
原创 Berkeley DB Java Edition Installation Notes(BDB JE安装教程)
1.下载官方下载链接:http://www.oracle.com/technetwork/database/database-technologies/berkeleydb/downloads/index.html 你首先需要登录才能下载,没有账号的话需要注册。(我下的是windows版本的,上面那个是Linux版本的) 2.解压下载下来的是一个压缩包 选择一个目录进行解压。比如,直接
2016-12-20 09:47:19 1599
原创 MD5压缩算法介绍
概述MD5以512位分组来处理输入的信息,且每一个分组又被划分为16个32位子分组,经过一系列处理后,算法的输出由4个32位分组组成,将这4个32位分组级联以后将生成一个128位的散列值。 步骤1.首先需要对信息进行填充使得其位长度(Bits Length)对512取余的结果等于448。因此,信息的位长度将被扩展至N*512+448,即N*64+56个字节(Bytes)。 填充方法: 在信息后面...
2016-12-16 16:21:34 4473 5
原创 《自己动手写网络爬虫》笔记4-带偏好的网络爬虫
有的时候提取URL的时候不一定按照队列“先进先出”的方式来进行遍历,而是将某些重要的URL先遍历,这种策略称为“页面选择”(Page Selection)。这种策略可以有效地照顾重要性高的网页。1.网页重要性高的因素链接的欢迎度: 主要由反向链接(backlinks,指向当前URL的链接)的数量和质量决定,我们定义为IB(P); 链接的重要度: 这是一个关于URL富川的函数,仅仅考察字符串本
2016-12-16 13:11:53 713
原创 《自己动手写网络爬虫》笔记3-宽度优先遍历互联网
之前写的是获取单个网页的内容,但是在实际项目中是需要遍历整个网络的相关网页。图论中有深度优先遍历和宽度优先遍历,深度优先可能会因为过”深“或者进入黑洞;同时,也不能完全按照宽度优先进行遍历,需要进行优先级排序。1.图的宽度优先遍历先回顾一下图论中的有向图的BFS宽度优先遍历算法。 例题:如图,根据BFS写出各个节点的遍历顺序 首先任选一点A作为开始节点(种子节点)。 操作 队列中的
2016-12-14 17:01:30 626
原创 《自己动手写网络爬虫》笔记2-Http状态码
在运行int statusCode = httpClient.executeMethod(postMethod); 的时候需要获得网页响应状态码。 Http状态码通常分为5类,分别以数字1-5开头,由3位整数组成。 1XX主要用作试验用途(之后补充,此次填写2016/12/13); 状态码 代码描述 处理方式 200 请求成功 获得响应内容,进行处理 201 请求完
2016-12-13 15:39:36 392
原创 《自己动手写爬虫网络》笔记1
1.深入理解URL 1.1 URL(uniform resource locator,统一资源定位器)是URI(uniform resource identifier,统一资源标识符)的子集,用来描述各种信息资源包括文件,服务器的地址、目录等。1.2 格式第一部分是协议或称为服务方式。 第二部分是存有该资源的主机IP地址(有时包括端口号)。 第三部分是主机资源的具体地址,比如目录和文件名等。
2016-12-13 14:39:18 933
OmniGraffle-mac版的viso
2018-05-08
HttpClient.jar
2016-12-12
ubuntu-12.04.5-alternate-i386.iso.torrent
2016-04-21
把多个aar合并成一个一个aar
2017-10-24
TA创建的收藏夹 TA关注的收藏夹
TA关注的人