一.基本概念
URI:Universal Resource Identifier,通用资源定位符,对web上可用的资源,如HTML文档、图像、视频片段等进行定位。包括三部分:访问资源的命名机制;存放资源的主机名;资源自身的名称(路径)。
URL:Uniform Resource Locator,统一资源定位符。包括三部分:协议;主机IP(port);主机资源的具体地址。
网页抓取:把URL地址中指定的网络资源从网络流中读取出来,保存到本地。执行爬虫程序的机器不能直接访问WEB资源,需要通过HTTP代理服务器去访问。
二.爬虫
爬虫一般使用宽搜的方法,因为:
(1)重要的网页往往离种子比较近;
(2)万维网的深度最多为17层,但到达某个网页总存在一条很短的路径,而宽度优先遍历会以最快的速度到达这个网页;
(3)有利于多个爬虫合作抓取。
URI:Universal Resource Identifier,通用资源定位符,对web上可用的资源,如HTML文档、图像、视频片段等进行定位。包括三部分:访问资源的命名机制;存放资源的主机名;资源自身的名称(路径)。
URL:Uniform Resource Locator,统一资源定位符。包括三部分:协议;主机IP(port);主机资源的具体地址。
网页抓取:把URL地址中指定的网络资源从网络流中读取出来,保存到本地。执行爬虫程序的机器不能直接访问WEB资源,需要通过HTTP代理服务器去访问。
二.爬虫
爬虫一般使用宽搜的方法,因为:
(1)重要的网页往往离种子比较近;
(2)万维网的深度最多为17层,但到达某个网页总存在一条很短的路径,而宽度优先遍历会以最快的速度到达这个网页;
(3)有利于多个爬虫合作抓取。