python爬虫学习笔记1

认识爬虫

爬虫的概念:又称网页蜘蛛、网络机器人,是一种按照一定规则、自动请求万维网网站并提取网络数据的程序或脚本。(数据是指网络上公开的可以访问到的网页信息)

爬虫的分类

按使用场景:通用爬虫、聚焦爬虫
按爬去形势:累积式爬虫、增量式爬虫
按爬取数据的存在方式:表层爬虫、深层爬虫

镜像备份是什么?
镜像备份是独立文件(数据文件、归档日志、控制文件)的备份。类似操作系统级的文件备份。
URL是什么?
统一资源定位系统,是因特网、万维网服务程序上用于指定信息位置的表示方法。
种子URL理解:就是从哪一个网址开始搜索。

通用爬虫

又称全网爬虫,它将爬取对象从一些种子URL扩充到整个网络,主要用途是为门户站点搜索引擎和大型web服务提供商采集数据。

聚焦爬虫

又称主题网络爬虫,选择性的爬取那些预先定义好的主题相关的页面的网络爬虫。

累积式爬虫

从某一个时间点开始,通过遍历的方式爬取系统所允许存储和处理的所有网页。

增量式爬虫

具有一定规模的网络页面集合的基础上,采用更新数据的方式选取已有集合中的过时网页进行爬取。

表层爬虫

爬取表层网页,表层网页是传统搜索引擎可以索引的页面,以超链接可以到达的静态网页为主构成的web页面。

深层爬虫

爬取深层网页,深层网页是那些大部分内容不能通过静态链接获取的

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值