爬虫的概念

一.基本概念
URI:Universal Resource Identifier,通用资源定位符,对web上可用的资源,如HTML文档、图像、视频片段等进行定位。包括三部分:访问资源的命名机制;存放资源的主机名;资源自身的名称(路径)。
URL:Uniform Resource Locator,统一资源定位符。包括三部分:协议;主机IP(port);主机资源的具体地址。
网页抓取:把URL地址中指定的网络资源从网络流中读取出来,保存到本地。执行爬虫程序的机器不能直接访问WEB资源,需要通过HTTP代理服务器去访问。
二.爬虫
爬虫一般使用宽搜的方法,因为:
(1)重要的网页往往离种子比较近;
(2)万维网的深度最多为17层,但到达某个网页总存在一条很短的路径,而宽度优先遍历会以最快的速度到达这个网页;
(3)有利于多个爬虫合作抓取。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值