scrapyItemPipeline

最新推荐文章于 2022-11-25 21:45:12 发布

卑微小钟

最新推荐文章于 2022-11-25 21:45:12 发布

阅读量6.9w

点赞数

分类专栏： python scrapy 爬虫文章标签：爬虫大数据 python

本文链接：https://blog.csdn.net/zhongjianboy/article/details/123431523

版权

34 篇文章 3 订阅

订阅专栏

24 篇文章 1 订阅

订阅专栏

13 篇文章 1 订阅

订阅专栏

scrapy框架-ItemPipeline

调用时间：当Item在Spider中被收集之后，它将会被传递到Item Pipeline，一些组件会按照一定的顺序执行对Item的处理。

功能:

必须实现以下方法：

process_item(self, item**,** spider**)**
- 每个item pipeline组件都需要调用该方法，这个方法必须返回一个具有数据的dict，或是 Item(或任何继承类)对象，或是抛出 DropItem 异常，被丢弃的item将不会被之后的pipeline组件所处理。
- 参数:
  - item （Item 对象或者一个dict) – 被爬取的item
  - spider (Spider 对象) – 爬取该item的spider
open_spider(self, spider)

当spider被开启时，这个方法被调用。参数:spider (Spider对象) – 被开启的spider
from_crawler(cls,crawler)

如果存在，则调用该类方法以从中创建管道实例Crawler。它必须返回管道的新实例。搜寻器对象提供对所有Scrapy核心组件（如设置和信号）的访问；这是管道访问它们并将其功能挂钩到Scrapy中的一种方法。

close_spider(self, spider)

当spider被关闭时，这个方法被调用参数:spider (Spider对象) – 被关闭的spider

为了启用一个Item Pipeline组件，你必须将它的类添加到 ITEM_PIPELINES 配置，就像下面这个例子:

ITEM_PIPELINES = {
    'myproject.pipelines.PricePipeline': 300,
    'myproject.pipelines.JsonWriterPipeline': 800,
}

分配给每个类的整型值，确定了他们运行的顺序，item按数字从低到高的顺序，通过pipeline，通常将这些数字定义在0-1000范围内。

关注