2016年12月_一块西瓜

12月 11月 10月 07月 05月 04月

原创《自己动手写网络爬虫》笔记6-使用布隆过滤器实现Visited表

在企业级搜索引擎中，常用一个称为布隆过滤器（Bloom Filter）的算法来实现对已经抓取过的URL进行过滤。布隆过滤器算法我们经常要判断一个元素是否在一个集合里面，最直接的方法是将集合中的全部元素存储在计算机中，遇到一个新元素时，将它和集合中的元素直接比较。一般来讲，计算机中的集合是用哈希表（Hash Table）来存储的。它的好处是快速而准确，缺点是浪费存储空间。当集合比较小的时候，这个问题

2016-12-20 15:23:33 708

原创《自己动手写网络爬虫》笔记5-设计爬虫对列

之前使用内存数据结构（队列或者链表）来说实现爬虫队列，但是在一些大型的搜索引擎中大搞斗殴十几亿的URL需要抓取。因此，内存数据结构并不适用于这些应用，最适合的一种方法是使用内存数据库，或者直接使用数据库来存储这些URL。本节讲的是一种非常流行的内存数据库——Berkeley DB。爬虫队列的特点能够存储海量数据，当数据超出内存限制的时候，能够固化在硬盘上存取数据速度非常快能够支持多线程访问

2016-12-20 11:00:17 2115 2

原创 Berkeley DB Java Edition Installation Notes（BDB JE安装教程）

1.下载官方下载链接：http://www.oracle.com/technetwork/database/database-technologies/berkeleydb/downloads/index.html 你首先需要登录才能下载，没有账号的话需要注册。（我下的是windows版本的，上面那个是Linux版本的） 2.解压下载下来的是一个压缩包选择一个目录进行解压。比如，直接

2016-12-20 09:47:19 1599

原创 MD5压缩算法介绍

概述MD5以512位分组来处理输入的信息，且每一个分组又被划分为16个32位子分组，经过一系列处理后，算法的输出由4个32位分组组成，将这4个32位分组级联以后将生成一个128位的散列值。步骤1.首先需要对信息进行填充使得其位长度（Bits Length）对512取余的结果等于448。因此，信息的位长度将被扩展至N*512+448，即N*64+56个字节（Bytes）。填充方法：在信息后面...

2016-12-16 16:21:34 4473 5

原创《自己动手写网络爬虫》笔记4-带偏好的网络爬虫

有的时候提取URL的时候不一定按照队列“先进先出”的方式来进行遍历，而是将某些重要的URL先遍历，这种策略称为“页面选择”（Page Selection）。这种策略可以有效地照顾重要性高的网页。1.网页重要性高的因素链接的欢迎度：主要由反向链接（backlinks，指向当前URL的链接）的数量和质量决定，我们定义为IB(P)；链接的重要度：这是一个关于URL富川的函数，仅仅考察字符串本

2016-12-16 13:11:53 713

原创《自己动手写网络爬虫》笔记3-宽度优先遍历互联网

之前写的是获取单个网页的内容，但是在实际项目中是需要遍历整个网络的相关网页。图论中有深度优先遍历和宽度优先遍历，深度优先可能会因为过”深“或者进入黑洞；同时，也不能完全按照宽度优先进行遍历，需要进行优先级排序。1.图的宽度优先遍历先回顾一下图论中的有向图的BFS宽度优先遍历算法。例题：如图，根据BFS写出各个节点的遍历顺序首先任选一点A作为开始节点（种子节点）。操作队列中的

2016-12-14 17:01:30 626

原创《自己动手写网络爬虫》笔记2-Http状态码

在运行int statusCode = httpClient.executeMethod(postMethod); 的时候需要获得网页响应状态码。 Http状态码通常分为5类，分别以数字1-5开头，由3位整数组成。 1XX主要用作试验用途（之后补充，此次填写2016/12/13）; 状态码代码描述处理方式 200 请求成功获得响应内容，进行处理 201 请求完

2016-12-13 15:39:36 392

原创《自己动手写爬虫网络》笔记1

1.深入理解URL 1.1 URL（uniform resource locator，统一资源定位器）是URI（uniform resource identifier，统一资源标识符）的子集，用来描述各种信息资源包括文件，服务器的地址、目录等。1.2 格式第一部分是协议或称为服务方式。第二部分是存有该资源的主机IP地址（有时包括端口号）。第三部分是主机资源的具体地址，比如目录和文件名等。

2016-12-13 14:39:18 933

OmniGraffle-mac版的viso

1.OmniGraffle可以用来绘制图表，流程图，组织结构图以及插图，也可以用来来组织头脑中思考的信息，组织头脑风暴的结果，绘制心智图，作为样式管理器，或设计网页或PDF文档的原型。　　2.在很多方面，OmniGraffle都类似于Microsoft Visio。OmniGraffle专业版可以利用Visio的XML导出函数以导入/导出Visio的XML文件。　　3.OmniGraffle Professional的软件界面非常的漂亮，并且具有大量的优秀美观的模板可以使用.

2018-05-08

HttpClient.jar

HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需要直接通过 HTTP 协议来访问网络资源。虽然在 JDK 的 java net包中已经提供了访问 HTTP 协议的基本功能，但是对于大部分应用程序来说，JDK 库本身提供的功能还不够丰富和灵活。HttpClient 是 Apache Jakarta Common 下的子项目，用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。 ———————————————— 版权声明：本文为CSDN博主「justry_deng」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。原文链接：https://blog.csdn.net/justry_deng/article/details/81042379

2016-12-12

TA关注的人

蜗牛背着那重重的壳呀，一步一步地往上爬.......