Scrapy框架实战(三):详解 Scrapy 的 Item Pipeline

当爬取的数据已经被存放在 Items 以后,如果 Spider(爬虫) 解析完 Response(响应结果),Items 就会传递到 Item Pipeline(项目管道) 中,然后在 Item Pipeline 中创建用于处理数据的类,这个类就是项目管道组件,通过执行一连串的处理即可实现数据的清洗、存储等工作。

1. 项目管道的核心方法

Item Pipeline(项目管道)的典型用途如下:

  1. 清洗 HTML 数据。
  2. 验证抓取的数据(检查项目是否包含某些字段)。
  3. 检查重复项(并将其删除)。
  4. 将爬取的结果存储在数据库中。

在编写自定义 Item Pipeline 时,可以实现以下几个方法:

  1. process_item():该方法是在自定义 Item Pipeline 时,所必须实现的方法。该方法中需要提供两个参数,参数的具体含义如下:
    1. item 参数为 Item 对象(被处理的 Item)或 字典。
    2. spider 参数为 Spider 对象(爬取信息的爬虫)。
  2. open_spider():该方法是在开启爬虫时被调用的,所以在这个方法中可以进行初始化操作,其中 spider 参数就是被开启的 Spider (爬虫)对象。
  3. close_spider():该方法与上一方法相反,是在关闭爬虫时被调用的,在这个方法中可以进行一些收尾工作,其中 spider 参数就是被关闭的 Spider(爬虫)对
  • 12
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Amo Xiang

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值