python爬虫学习笔记1

最新推荐文章于 2022-05-25 09:18:50 发布

菜根谭学编程

最新推荐文章于 2022-05-25 09:18:50 发布

阅读量797

点赞数

分类专栏：笔记文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_54781336/article/details/120401008

版权

认识爬虫

爬虫的概念：又称网页蜘蛛、网络机器人，是一种按照一定规则、自动请求万维网网站并提取网络数据的程序或脚本。（数据是指网络上公开的可以访问到的网页信息）

爬虫的分类

按使用场景：通用爬虫、聚焦爬虫
按爬去形势：累积式爬虫、增量式爬虫
按爬取数据的存在方式：表层爬虫、深层爬虫

镜像备份是什么？
镜像备份是独立文件(数据文件、归档日志、控制文件）的备份。类似操作系统级的文件备份。
URL是什么？
统一资源定位系统，是因特网、万维网服务程序上用于指定信息位置的表示方法。
种子URL理解：就是从哪一个网址开始搜索。

通用爬虫

又称全网爬虫，它将爬取对象从一些种子URL扩充到整个网络，主要用途是为门户站点搜索引擎和大型web服务提供商采集数据。

聚焦爬虫

又称主题网络爬虫，选择性的爬取那些预先定义好的主题相关的页面的网络爬虫。

累积式爬虫

从某一个时间点开始，通过遍历的方式爬取系统所允许存储和处理的所有网页。

增量式爬虫

具有一定规模的网络页面集合的基础上，采用更新数据的方式选取已有集合中的过时网页进行爬取。

表层爬虫

爬取表层网页，表层网页是传统搜索引擎可以索引的页面，以超链接可以到达的静态网页为主构成的web页面。

深层爬虫

爬取深层网页，深层网页是那些大部分内容不能通过静态链接获取的

最低0.47元/天解锁文章

菜根谭学编程

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python爬虫学习笔记1

认识爬虫爬虫的概念：又称网页蜘蛛、网络机器人，是一种按照一定规则、自动请求万维网网站并提取网络数据的程序或脚本。（数据是指网络上公开的可以访问到的网页信息）爬虫的分类按使用场景：通用爬虫、聚焦爬虫按爬去形势：累积式爬虫、增量式爬虫按爬取数据的存在方式：表层爬虫、深层爬虫镜像备份是什么？镜像备份是独立文件(数据文件、归档日志、控制文件）的备份。类似操作系统级的文件备份。URL是什么？统一资源定位系统，是因特网、万维网服务程序上用于指定信息位置的表示方法。通用爬虫又称全网爬虫，它将爬取对象
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。