认识爬虫
爬虫的概念:又称网页蜘蛛、网络机器人,是一种按照一定规则、自动请求万维网网站并提取网络数据的程序或脚本。(数据是指网络上公开的可以访问到的网页信息)
爬虫的分类
按使用场景:通用爬虫、聚焦爬虫
按爬去形势:累积式爬虫、增量式爬虫
按爬取数据的存在方式:表层爬虫、深层爬虫
镜像备份是什么?
镜像备份是独立文件(数据文件、归档日志、控制文件)的备份。类似操作系统级的文件备份。
URL是什么?
统一资源定位系统,是因特网、万维网服务程序上用于指定信息位置的表示方法。
种子URL理解:就是从哪一个网址开始搜索。
通用爬虫
又称全网爬虫,它将爬取对象从一些种子URL扩充到整个网络,主要用途是为门户站点搜索引擎和大型web服务提供商采集数据。
聚焦爬虫
又称主题网络爬虫,选择性的爬取那些预先定义好的主题相关的页面的网络爬虫。
累积式爬虫
从某一个时间点开始,通过遍历的方式爬取系统所允许存储和处理的所有网页。
增量式爬虫
具有一定规模的网络页面集合的基础上,采用更新数据的方式选取已有集合中的过时网页进行爬取。
表层爬虫
爬取表层网页,表层网页是传统搜索引擎可以索引的页面,以超链接可以到达的静态网页为主构成的web页面。
深层爬虫
爬取深层网页,深层网页是那些大部分内容不能通过静态链接获取的