深入理解爬虫的工作机制

zxhcm521

已于 2022-05-09 11:36:46 修改

阅读量576

点赞数

分类专栏：学术文章标签：爬虫 python 数据挖掘

于 2022-05-09 11:36:17 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zxhcm521/article/details/124662699

版权

学术专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文详细介绍了爬虫的工作机制，以Scrapy框架为例，阐述了创建爬虫项目、定义抓取数据及运行爬虫的过程。通过实例展示了如何使用Scrapy从中小企业管理与科技杂志社网站抓取信息，爬虫首先从种子URL开始，下载网页内容并提取新的URL，直到队列为空。最后，提到了爬取的数据暂存为json文件，并预告了后续将存储到数据库。

摘要由CSDN通过智能技术生成

爬虫是就是一个程序，这个程序的任务就是从给出的一组种子URL开始爬取网页，并通过网页间的链接爬取更多的网页，根据爬虫任务的需求，最终可能会爬取整个互联网的网页。

爬虫的工作机制如下图示：
在这里插入图片描述

URL就是网页的网址，种子URL就是爬虫要首先爬取的网页网址，确定你的爬虫程序首先从哪些网页开始爬取。一组种子URL是指一个或多个的网页地址。

爬虫程序开始工作后，种子URL会先加入到待爬取网页的队列中，爬虫程序从队列按照先进先出的原则获取网页URL，爬虫程序开始爬取网页，爬虫会下载整个网页内容，然后提取网页内容，分析出网页内容包含的URL，并把新的URL加入到队列。

当队列为空时，爬虫停止工作，否则爬虫会继续从队列获取网页URL，爬取下一个网页。

以我爬取中小企业管理与科技杂志社这个网站举例来说
（1）创建爬虫项目

使用Scrapy实现爬虫，需要创建一个新的Scrapy项目。创建一个Scrapy项目非常简单，使用Scrapy命令行工具就可以创建Scrapy项目，Scrapy命令行工具可以运行在Windows的命令行窗口或Linux的终端窗口。
（2）定义要抓取的数据

开发爬虫的目的是要爬取网站数据，并提取出结构化数据。要做的第一步工作就是根据要爬取的网站内容构成，定义一个结构化数据，存储从网站提取的数据。
（3）运行爬虫

当前创建的SpiderNewsbaiduSpider爬虫还是非常简单的，在爬虫内并没有处理网页内新闻条目外的超链接，因此爬虫处理完该网页内容后，就会自行结束爬取过程。随着对scrapy框架的深入了解，会逐渐完善SpiderNewsbaiduSpider爬虫。

现在可以运行爬虫了，爬取的数据暂时存储到json文件，在后面的课程会存储到数据库。
后续的内容更加精彩，敬请关注。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。