爬虫基础知识

椿湫づ゛

已于 2022-04-02 20:06:22 修改

阅读量628

点赞数

文章标签：爬虫

于 2022-04-02 12:23:32 首次发布

本文链接：https://blog.csdn.net/weixin_52707424/article/details/123917382

版权

网络爬虫：爬虫一般指网络爬虫，又名网页蜘蛛，蠕虫等，是一种按照一定等规则，自动抓取网页内容的程序或者脚本。爬虫的原理：传统的网络爬虫从一个或多个网页的初始url开始，获取这些初始url内容中的新的url，在抓取网页的过程中，不断的从当前页面上抽取出新的url放入到url列列中，直到满足预定的条件时停止。一些具有特定策略的爬虫工作流程较为复杂，例如聚焦爬虫，他们会根据一定的网页分析算法过滤和主题无关的连接，只保留那些跟主题相关的连接放入到url队列中，然...

摘要由CSDN通过智能技术生成

网络爬虫：爬虫一般指网络爬虫，又名网页蜘蛛，蠕虫等，是一种按照一定等规则，自动抓取网页内容的程序或者脚本。

爬虫的原理：传统的网络爬虫从一个或多个网页的初始url开始，获取这些初始url内容中的新的url，在抓取网页的过程中，不断的从当前页面上抽取出新的url放入到url列列中，直到满足预定的条件时停止。

一些具有特定策略的爬虫工作流程较为复杂，例如聚焦爬虫，他们会根据一定的网页分析算法过滤和主题无关的连接，只保留那些跟主题相关的连接放入到url队列中，然后，他们会根据一定的搜索策略从队列中选择下一步要抓取的网页url，并重复上述过程，直到达到系统的某一条件停止。

爬虫分类：

网络爬虫按照系统结构和实现技术，大致可以分为一下几种类型：通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫，实际的网络爬虫系统通常都是几种爬虫技术相结合实现的。

（1）通用网络爬虫
通用网络爬虫的爬行对象从一些种子url扩充到整个Web，主要为门户站点搜索引擎和大型Web服务提供商采集数据。
爬虫的结构大致可以分为初始url、url队列、页面爬行模块、页面分析模块、连接过滤模块、页面数据库集合几个部分。
常用的爬行策略有：深度优先策略、广度优先策略。

（2）聚焦网络爬虫
聚焦网络爬虫又称为主题网络爬虫，是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。和通用网络爬虫相比，聚焦爬虫只需要爬行与主题相关的页面，极大地节省来硬件和网络资源，保存的页面也由于数量少而更新快，还可以很好地满足一些特定人群对特定领域信息的需求。

最低0.47元/天解锁文章

椿湫づ゛

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫基础知识

网络爬虫：爬虫一般指网络爬虫，又名网页蜘蛛，蠕虫等，是一种按照一定等规则，自动抓取网页内容的程序或者脚本。爬虫的原理：传统的网络爬虫从一个或多个网页的初始url开始，获取这些初始url内容中的新的url，在抓取网页的过程中，不断的从当前页面上抽取出新的url放入到url列列中，直到满足预定的条件时停止。一些具有特定策略的爬虫工作流程较为复杂，例如聚焦爬虫，他们会根据一定的网页分析算法过滤和主题无关的连接，只保留那些跟主题相关的连接放入到url队列中，然...
复制链接

扫一扫