前面几个小节已经讲解的爬虫都是抓取一个或几个页面,然后分析页面中的内容,这种爬虫可以称为专用爬虫,通常是用来抓取特定页面中感兴趣的内容,例如,某个城市的天气预报信息,或特定商品的信息等。除了专用爬虫外,还有一类爬虫应用非常广泛,这就是通用爬虫。这种爬虫需要抓取的页面数据量通常非常大。例如,像 Google、百度这样的搜索引擎就是使用这种通用爬虫抓取了整个互联网的数据,然后经过复杂的处理,最终将处理过的数据保存到分布式数据库中,通过搜索引擎查到的最终结果其实是经过整理后的数据,而数据的最初来源是利用通用爬虫抓取的整个互联网的数据。但对于大多数人来说,是没必要抓取整个互联网的数据的,即使抓取了,这么大量的数据也没有那么多硬盘来存放。不过为了研究通用爬虫,可以选择抓取某个网站的满足一定规则的数据,本文就会利用通用爬虫抓取网站中的新闻数据。但在讲解如何实现抓取新闻的通用爬虫前,先要介绍两个重要的工具:CrawlSpider 和 Item Loader。
1. CrawlSpider
CrawlSpider 是 Scrapy 提供的一个通用爬虫。CrawlSpider 是一个类,编写的爬虫类可以直接从 CrawlSpider 派生。CrawlSpider 类可以通过指定一些规则让爬虫抓取页面中特定的内容,这些规则需要通过专门的 Rule 指定&#
本文介绍了Scrapy中的CrawlSpider和Item Loader的使用。CrawlSpider是Scrapy提供的通用爬虫,通过Rule定义抓取规则,LinkExtractor用于提取URL。Item Loader提供便利的数据填充机制,简化了Item对象的填充过程。文章通过实例演示了如何使用CrawlSpider抓取网站新闻数据,并解释了各种内置处理器的功能。
订阅专栏 解锁全文
524

被折叠的 条评论
为什么被折叠?



