Scrapy框架实战(五):通用爬虫 CrawlSpider

本文介绍了Scrapy中的CrawlSpider和Item Loader的使用。CrawlSpider是Scrapy提供的通用爬虫,通过Rule定义抓取规则,LinkExtractor用于提取URL。Item Loader提供便利的数据填充机制,简化了Item对象的填充过程。文章通过实例演示了如何使用CrawlSpider抓取网站新闻数据,并解释了各种内置处理器的功能。
摘要由CSDN通过智能技术生成

前面几个小节已经讲解的爬虫都是抓取一个或几个页面,然后分析页面中的内容,这种爬虫可以称为专用爬虫,通常是用来抓取特定页面中感兴趣的内容,例如,某个城市的天气预报信息,或特定商品的信息等。除了专用爬虫外,还有一类爬虫应用非常广泛,这就是通用爬虫。这种爬虫需要抓取的页面数据量通常非常大。例如,像 Google、百度这样的搜索引擎就是使用这种通用爬虫抓取了整个互联网的数据,然后经过复杂的处理,最终将处理过的数据保存到分布式数据库中,通过搜索引擎查到的最终结果其实是经过整理后的数据,而数据的最初来源是利用通用爬虫抓取的整个互联网的数据。但对于大多数人来说,是没必要抓取整个互联网的数据的,即使抓取了,这么大量的数据也没有那么多硬盘来存放。不过为了研究通用爬虫,可以选择抓取某个网站的满足一定规则的数据,本文就会利用通用爬虫抓取网站中的新闻数据。但在讲解如何实现抓取新闻的通用爬虫前,先要介绍两个重要的工具:CrawlSpider 和 Item Loader。

1. CrawlSpider

CrawlSpider 是 Scrapy 提供的一个通用爬虫。CrawlSpider 是一个类,编写的爬虫类可以直接从 CrawlSpider 派生。CrawlSpider 类可以通过指定一些规则让爬虫抓取页面中特定的内容,这些规则需要通过专门的 Rule 指定&#

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Amo Xiang

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>