Python爬虫——相关概念
1.爬虫相关概念
1.1 什么是爬虫
通过编写程序,模拟浏览器上网,然后抓取网上感兴趣的数据的过程。
1.2 分类
- (1) 通用爬虫
抓取系统重要组成部分,是一整张页面数据 - (2) 聚焦爬虫
建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容 - (3) 增量式爬虫
检测网站中数据更新的情况,只会抓取网站中最新更新出来的数据
1.3 爬虫的矛与盾
- 反爬机制:门户网站可制定相应的策略或技术手段防止爬虫程序进行网站数据的爬取(robots.txt协议);
- 反反爬机制:通过制定相关策略或技术,破解反爬机制。
1.4 HTTP&HTTPS
1.4.1 http协议
-
超文本传输协议(Hyper Text Transfer Protocol)
-
解释:Sever和Client之间进行数据交互的一种形式
-
HTTP工作原理
-
HTTP协议工作于客户端-服务端架构为上。浏览器作为HTTP客户端通过URL向HTTP服务端即WEB服务器发送所有请求。Web服务器根据接收到的请求后,向客户端发送响应信息