![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
网络技术
文章平均质量分 63
一块西瓜
春风十里 五十里 一百里 体测八百米 海底两万里 德芙巧克力 香草味八喜 可可布朗尼 榴莲菠萝蜜 芝士玉米粒 鸡汁土豆泥 黑椒牛里脊 黄焖辣子鸡 红烧排骨酱醋鱼 不如你 全都不如你。
展开
-
《自己动手写爬虫网络》笔记1
1.深入理解URL 1.1 URL(uniform resource locator,统一资源定位器)是URI(uniform resource identifier,统一资源标识符)的子集,用来描述各种信息资源包括文件,服务器的地址、目录等。1.2 格式第一部分是协议或称为服务方式。 第二部分是存有该资源的主机IP地址(有时包括端口号)。 第三部分是主机资源的具体地址,比如目录和文件名等。原创 2016-12-13 14:39:18 · 944 阅读 · 0 评论 -
《自己动手写网络爬虫》笔记5-设计爬虫对列
之前使用内存数据结构(队列或者链表)来说实现爬虫队列,但是在一些大型的搜索引擎中大搞斗殴十几亿的URL需要抓取。因此,内存数据结构并不适用于这些应用,最适合的一种方法是使用内存数据库,或者直接使用数据库来存储这些URL。本节讲的是一种非常流行的内存数据库——Berkeley DB。爬虫队列的特点能够存储海量数据,当数据超出内存限制的时候,能够固化在硬盘上存取数据速度非常快能够支持多线程访问原创 2016-12-20 11:00:17 · 2124 阅读 · 2 评论 -
Berkeley DB Java Edition Installation Notes(BDB JE安装教程)
1.下载官方下载链接:http://www.oracle.com/technetwork/database/database-technologies/berkeleydb/downloads/index.html 你首先需要登录才能下载,没有账号的话需要注册。(我下的是windows版本的,上面那个是Linux版本的) 2.解压下载下来的是一个压缩包 选择一个目录进行解压。比如,直接原创 2016-12-20 09:47:19 · 1604 阅读 · 0 评论 -
使用WebCollector遇到的异常—java.io.IOException: Premature EOF
异常表达:java.io.IOException: Premature EOFat sun.net.www.http.ChunkedInputStream.fastReadat..........原因: 1.运行时网络情况差 ——过段时间再次运行,看看是否有改善 2.crawler.setThreads(50);参数设置成50 太小了改成5000试试,在你的url很多的时候,这个地方也原创 2017-01-05 14:14:13 · 6172 阅读 · 3 评论 -
《自己动手写网络爬虫》笔记3-宽度优先遍历互联网
之前写的是获取单个网页的内容,但是在实际项目中是需要遍历整个网络的相关网页。图论中有深度优先遍历和宽度优先遍历,深度优先可能会因为过”深“或者进入黑洞;同时,也不能完全按照宽度优先进行遍历,需要进行优先级排序。1.图的宽度优先遍历先回顾一下图论中的有向图的BFS宽度优先遍历算法。 例题:如图,根据BFS写出各个节点的遍历顺序 首先任选一点A作为开始节点(种子节点)。 操作 队列中的原创 2016-12-14 17:01:30 · 631 阅读 · 0 评论 -
MD5压缩算法介绍
概述MD5以512位分组来处理输入的信息,且每一个分组又被划分为16个32位子分组,经过一系列处理后,算法的输出由4个32位分组组成,将这4个32位分组级联以后将生成一个128位的散列值。 步骤1.首先需要对信息进行填充使得其位长度(Bits Length)对512取余的结果等于448。因此,信息的位长度将被扩展至N*512+448,即N*64+56个字节(Bytes)。 填充方法: 在信息后面...原创 2016-12-16 16:21:34 · 4517 阅读 · 5 评论 -
《自己动手写网络爬虫》笔记4-带偏好的网络爬虫
有的时候提取URL的时候不一定按照队列“先进先出”的方式来进行遍历,而是将某些重要的URL先遍历,这种策略称为“页面选择”(Page Selection)。这种策略可以有效地照顾重要性高的网页。1.网页重要性高的因素链接的欢迎度: 主要由反向链接(backlinks,指向当前URL的链接)的数量和质量决定,我们定义为IB(P); 链接的重要度: 这是一个关于URL富川的函数,仅仅考察字符串本原创 2016-12-16 13:11:53 · 717 阅读 · 0 评论 -
《自己动手写网络爬虫》笔记2-Http状态码
在运行int statusCode = httpClient.executeMethod(postMethod); 的时候需要获得网页响应状态码。 Http状态码通常分为5类,分别以数字1-5开头,由3位整数组成。 1XX主要用作试验用途(之后补充,此次填写2016/12/13); 状态码 代码描述 处理方式 200 请求成功 获得响应内容,进行处理 201 请求完原创 2016-12-13 15:39:36 · 393 阅读 · 0 评论 -
《自己动手写网络爬虫》笔记6-使用布隆过滤器实现Visited表
在企业级搜索引擎中,常用一个称为布隆过滤器(Bloom Filter)的算法来实现对已经抓取过的URL进行过滤。布隆过滤器算法我们经常要判断一个元素是否在一个集合里面,最直接的方法是将集合中的全部元素存储在计算机中,遇到一个新元素时,将它和集合中的元素直接比较。一般来讲,计算机中的集合是用哈希表(Hash Table)来存储的。它的好处是快速而准确,缺点是浪费存储空间。当集合比较小的时候,这个问题原创 2016-12-20 15:23:33 · 709 阅读 · 0 评论