浏览器&爬虫工作原理

最新推荐文章于 2024-05-11 15:26:12 发布

六百万修仙派门童

最新推荐文章于 2024-05-11 15:26:12 发布

阅读量266

点赞数 1

文章标签： python 爬虫

本文链接：https://blog.csdn.net/weixin_47172104/article/details/110749430

版权

浏览器具体工作流程见下图：

了解了浏览器的工作原理后，爬虫的作用则是把上述流程中第2、4、5、6、7步用程序来代替。以实现用户把需求写进爬虫程序里面后，爬虫程序可以自动按照事先预定的规则，把用户所需的资源从服务器上抓取下来，并自动分析和储存。相应的，假如爬虫程序后，工作流程如下：

在网络世界里，并非所有的网站所以的内容都是支持爬虫来获取的，网站开发者和运营人员对于哪些内容支持哪些爬虫爬取等规则，都会写在robots协议文件里。
robots文件一般会放在网站的根目录底下，如：
www.baidu.com/robots.txt
www.4399.com/robots.txt

在robots协议中，主要分为两部分内容
（1）User-agent：表示爬虫类型
（2）ALLOW 和 DISALLOW：表示允许访问和禁止访问

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注