浏览器&爬虫工作原理
一、浏览器是怎么工作的?
浏览器具体工作流程见下图:
二、爬虫是做什么用的?
了解了浏览器的工作原理后,爬虫的作用则是把上述流程中第2、4、5、6、7步用程序来代替。以实现用户把需求写进爬虫程序里面后,爬虫程序可以自动按照事先预定的规则,把用户所需的资源从服务器上抓取下来,并自动分析和储存。相应的,假如爬虫程序后,工作流程如下:
三、爬虫使用伦理
在网络世界里,并非所有的网站所以的内容都是支持爬虫来获取的,网站开发者和运营人员对于哪些内容支持哪些爬虫爬取等规则,都会写在robots协议文件里。
robots文件一般会放在网站的根目录底下,如:
www.baidu.com/robots.txt
www.4399.com/robots.txt
在robots协议中,主要分为两部分内容
(1)User-agent:表示爬虫类型
(2)ALLOW 和 DISALLOW:表示允许访问和禁止访问