浏览器&爬虫工作原理

浏览器&爬虫工作原理

一、浏览器是怎么工作的?

浏览器具体工作流程见下图:

Created with Raphaël 2.2.0 开始 1.用户输入网址 2.浏览器向网站服务器请求资源 3.网站服务器回应浏览器请求 4.浏览器解析数据 5.浏览器展示数据给用户 6.用户提取所需数据 7.用户储存所需数据 结束

二、爬虫是做什么用的?

了解了浏览器的工作原理后,爬虫的作用则是把上述流程中第2、4、5、6、7步用程序来代替。以实现用户把需求写进爬虫程序里面后,爬虫程序可以自动按照事先预定的规则,把用户所需的资源从服务器上抓取下来,并自动分析和储存。相应的,假如爬虫程序后,工作流程如下:

Created with Raphaël 2.2.0 开始 1.用户输入网址 2.爬虫向网站服务器请求资源 3.网站服务器回应爬虫请求 4.爬虫解析、提取并储存数据 5.向用户展现数据 结束

三、爬虫使用伦理

在网络世界里,并非所有的网站所以的内容都是支持爬虫来获取的,网站开发者和运营人员对于哪些内容支持哪些爬虫爬取等规则,都会写在robots协议文件里。
robots文件一般会放在网站的根目录底下,如:
www.baidu.com/robots.txt
www.4399.com/robots.txt

在robots协议中,主要分为两部分内容
(1)User-agent:表示爬虫类型
(2)ALLOW 和 DISALLOW:表示允许访问和禁止访问

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值