当Item在Spider中被收集之后,它将会被传递到Item Pipeline,一些组件会按照一定的顺序执行对Item的处理。
每个Item Pipeline组件(有时呈)
以下是item pipeline的一些典型应用:
- 清理HTML数据
- 验证爬取的数据(检查item包含某些字段)
- 查重(并丢弃)
- 将爬取结果保存到数据库
写你自己的item pipeline(item组件)
每一个 item pipeline是一个python类,必须完成下面的方法
process_item(self,item,spider)
这个方法
参数
- item(Item 实例对象或者字典)----抓取的item
- spider(Spider实例对象)---抓取item的spider