一、数据爬虫是什么?
爬虫是一种按照一定规则,模拟浏览器,抓取信息的一段脚本或程序
二、爬虫它合法吗?
爬虫不能干扰网站的正常运行,爬虫不能抓取受保护的信息。
- 不能干扰网站的正常运行指的是:爬虫对网站产生过重的负荷,不能干扰网站的正常用户访问
- 不能抓取受保护信息指的是:不能爬取非公开接口,不能违反网站robots.txt协议
(网站robots.txt协议是一个道德协议,但已有案例根据此协议判决,所以近似于具有法律效应。一般会写在网站域名后,如下图)
三、爬虫有几类?
爬虫一般按照抓取的内容分为三类
- 通用爬虫:抓取一整张页面,搜索引擎一般用的就是这种爬虫。
- 聚焦爬虫:针对页面的局部信息进行爬取,是最常用的爬虫。
- 增量式爬虫:只抓取页面最新更新出来的信息,是聚焦爬虫的变体。
四、爬虫的作用流程
就像将大象放进冰箱里一样,爬虫基本作用流程就三步:
- 发送请求
- 接收响应数据
- 持久化存储