自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 资源 (4)
  • 问答 (1)
  • 收藏
  • 关注

原创 《自己动手写网络爬虫》笔记6-使用布隆过滤器实现Visited表

在企业级搜索引擎中,常用一个称为布隆过滤器(Bloom Filter)的算法来实现对已经抓取过的URL进行过滤。布隆过滤器算法我们经常要判断一个元素是否在一个集合里面,最直接的方法是将集合中的全部元素存储在计算机中,遇到一个新元素时,将它和集合中的元素直接比较。一般来讲,计算机中的集合是用哈希表(Hash Table)来存储的。它的好处是快速而准确,缺点是浪费存储空间。当集合比较小的时候,这个问题

2016-12-20 15:23:33 708

原创 《自己动手写网络爬虫》笔记5-设计爬虫对列

之前使用内存数据结构(队列或者链表)来说实现爬虫队列,但是在一些大型的搜索引擎中大搞斗殴十几亿的URL需要抓取。因此,内存数据结构并不适用于这些应用,最适合的一种方法是使用内存数据库,或者直接使用数据库来存储这些URL。本节讲的是一种非常流行的内存数据库——Berkeley DB。爬虫队列的特点能够存储海量数据,当数据超出内存限制的时候,能够固化在硬盘上存取数据速度非常快能够支持多线程访问

2016-12-20 11:00:17 2115 2

原创 Berkeley DB Java Edition Installation Notes(BDB JE安装教程)

1.下载官方下载链接:http://www.oracle.com/technetwork/database/database-technologies/berkeleydb/downloads/index.html 你首先需要登录才能下载,没有账号的话需要注册。(我下的是windows版本的,上面那个是Linux版本的) 2.解压下载下来的是一个压缩包 选择一个目录进行解压。比如,直接

2016-12-20 09:47:19 1599

原创 MD5压缩算法介绍

概述MD5以512位分组来处理输入的信息,且每一个分组又被划分为16个32位子分组,经过一系列处理后,算法的输出由4个32位分组组成,将这4个32位分组级联以后将生成一个128位的散列值。 步骤1.首先需要对信息进行填充使得其位长度(Bits Length)对512取余的结果等于448。因此,信息的位长度将被扩展至N*512+448,即N*64+56个字节(Bytes)。 填充方法: 在信息后面...

2016-12-16 16:21:34 4473 5

原创 《自己动手写网络爬虫》笔记4-带偏好的网络爬虫

有的时候提取URL的时候不一定按照队列“先进先出”的方式来进行遍历,而是将某些重要的URL先遍历,这种策略称为“页面选择”(Page Selection)。这种策略可以有效地照顾重要性高的网页。1.网页重要性高的因素链接的欢迎度: 主要由反向链接(backlinks,指向当前URL的链接)的数量和质量决定,我们定义为IB(P); 链接的重要度: 这是一个关于URL富川的函数,仅仅考察字符串本

2016-12-16 13:11:53 713

原创 《自己动手写网络爬虫》笔记3-宽度优先遍历互联网

之前写的是获取单个网页的内容,但是在实际项目中是需要遍历整个网络的相关网页。图论中有深度优先遍历和宽度优先遍历,深度优先可能会因为过”深“或者进入黑洞;同时,也不能完全按照宽度优先进行遍历,需要进行优先级排序。1.图的宽度优先遍历先回顾一下图论中的有向图的BFS宽度优先遍历算法。 例题:如图,根据BFS写出各个节点的遍历顺序 首先任选一点A作为开始节点(种子节点)。 操作 队列中的

2016-12-14 17:01:30 626

原创 《自己动手写网络爬虫》笔记2-Http状态码

在运行int statusCode = httpClient.executeMethod(postMethod); 的时候需要获得网页响应状态码。 Http状态码通常分为5类,分别以数字1-5开头,由3位整数组成。 1XX主要用作试验用途(之后补充,此次填写2016/12/13); 状态码 代码描述 处理方式 200 请求成功 获得响应内容,进行处理 201 请求完

2016-12-13 15:39:36 392

原创 《自己动手写爬虫网络》笔记1

1.深入理解URL 1.1 URL(uniform resource locator,统一资源定位器)是URI(uniform resource identifier,统一资源标识符)的子集,用来描述各种信息资源包括文件,服务器的地址、目录等。1.2 格式第一部分是协议或称为服务方式。 第二部分是存有该资源的主机IP地址(有时包括端口号)。 第三部分是主机资源的具体地址,比如目录和文件名等。

2016-12-13 14:39:18 933

OmniGraffle-mac版的viso

1.OmniGraffle可以用来绘制图表,流程图,组织结构图以及插图,也可以用来来组织头脑中思考的信息,组织头脑风暴的结果,绘制心智图,作为样式管理器,或设计网页或PDF文档的原型。   2.在很多方面,OmniGraffle都类似于Microsoft Visio。OmniGraffle专业版可以利用Visio的XML导出函数以导入/导出Visio的XML文件。   3.OmniGraffle Professional的软件界面非常的漂亮,并且具有大量的优秀美观的模板可以使用.

2018-05-08

HttpClient.jar

HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了,越来越多的 Java 应用程序需要直接通过 HTTP 协议来访问网络资源。虽然在 JDK 的 java net包中已经提供了访问 HTTP 协议的基本功能,但是对于大部分应用程序来说,JDK 库本身提供的功能还不够丰富和灵活。HttpClient 是 Apache Jakarta Common 下的子项目,用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包,并且它支持 HTTP 协议最新的版本和建议。 ———————————————— 版权声明:本文为CSDN博主「justry_deng」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。 原文链接:https://blog.csdn.net/justry_deng/article/details/81042379

2016-12-12

android经典案例项目案例开发扫描版本

共享给大家

2016-05-06

ubuntu-12.04.5-alternate-i386.iso.torrent

Ubuntu系统,可以用物理安装或者虚拟机虚拟安装。 如果要看VirtualBox安装教程请在本人博客中找!

2016-04-21

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除