scrapy专利爬虫（四）——数据处理

最新推荐文章于 2024-04-18 00:56:18 发布

will4906

最新推荐文章于 2024-04-18 00:56:18 发布

阅读量3.7k

点赞数

分类专栏： python 爬虫文章标签：爬虫 python scrapy

本文链接：https://blog.csdn.net/will4906/article/details/72625190

版权

python 同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

爬虫

6 篇文章 0 订阅

订阅专栏

scrapy专利爬虫（四）——数据处理

说到scrapy的数据处理，就必须先介绍两个组件item和pipeline。

item

item的使用比较简单，只需要定义一个继承自scrapy.Item的类，在类中定义需要采集的元素即可，比如：

    # 专利名称
    name = scrapy.Field()
    # 类型（公告，授权公告）
    type = scrapy.Field()
    # 专利类型
    patentType = scrapy.Field()
    # 申请号
    requestNumber = scrapy.Field()
    # 申请日
    requestDate = scrapy.Field()
    # 公布日
    publishDate = scrapy.Field()

在后续的使用中，可以直接使用item.get('name')取值，item['name'] = 数据赋值。

pipeline

pipeline作为数据查重，收集等功能的管道，基本的数据处理都将这里进行。

     process_item(self, item, spider)

函数中的item是在之前spider中的回调函数yield的item，进入了这个函数后我们可以进行查重、校验和数据存储。本工程对发明人和申请人进行了校验。

    def process_item(self, item, spider):
        if self.checkForInventor(item):
            if self.checkForProposer(item):
                print(item.items())
                self.writeToExcel(item)
        return item

写入excel

由于项目对excel的需求不高，所以工程使用了xlrd，xlwd，xlutils等库，写入xls文件。

python读写excel是分别使用了两个库进行操作。写入用的是xlwd，读取用的是xlrd。而且没有提供直接修改的API，所以需要使用xlutils的copy先将excel文件读入写入实例的内存。

    def getExcel(self, mode):           # 采用工厂模式建立excel的读写实例
        if isinstance(mode, str):
            if mode.upper() == "READ":
                return xlrd.open_workbook(self.__fileName)
            elif mode.upper() == "WRITE":
                rb = xlrd.open_workbook(self.__fileName)
                return copy(rb)
        else:
            return None

写入时需要先指定sheet然后再进行写入操作。由于各种奇奇怪怪的限制，所以工程模仿安卓的SharedPreferences的使用方式，先获取editor然后每次写入需要commit。

详细实例在代码中。

源码下载

赞赏

微信	支付宝

will4906

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
scrapy专利爬虫（四）——数据处理

scrapy专利爬虫（四）——数据处理说到scrapy的数据处理，就必须先介绍两个组件item和pipeline。itemitem的使用比较简单，只需要定义一个继承自scrapy.Item的类，在类中定义需要采集的元素即可，比如： # 专利名称 name = scrapy.Field() # 类型（公告，授权公告） type = scrapy.Field() #
复制链接

扫一扫