2017年05月_will4906

10月 08月 07月 06月 05月 04月 03月 01月

原创 scrapy专利爬虫（四）——数据处理

scrapy专利爬虫（四）——数据处理说到scrapy的数据处理，就必须先介绍两个组件item和pipeline。itemitem的使用比较简单，只需要定义一个继承自scrapy.Item的类，在类中定义需要采集的元素即可，比如： # 专利名称 name = scrapy.Field() # 类型（公告，授权公告） type = scrapy.Field() #

2017-05-22 11:56:38 3807

原创 scrapy专利爬虫（三）——简单实际操作

scrapy专利爬虫（三）——简单实际操作确定链接在chrome中打开审查元素中的network选项，查看查询专利时发送的请求。观察后发现在每次查询的时候，浏览器都会先发送两条请求给服务器。发送相关请求经过观察发现，网站的查询流程是先发送不带参数的post请求preExecuteSearch!preExcuteSearch.do将ip地址传给服务器然后再发送biaogejsAC!executeC

2017-05-22 11:56:02 3249

原创 scrapy专利爬虫（二）——请求相关

scrapy专利爬虫（二）——请求相关在这里笔者将会介绍一些关于发送request的相关内容。SpiderSpider默认需要填写三个参数：namespider的独立名称，必须唯一allowed_domains允许爬取的范围，以专利爬虫为例，不会超出专利网站的范围，所以只需要填写”pss-system.gov.cn”即可。start_urls起始url，spider会首先请求这个参数里的地

2017-05-22 11:54:57 2075

原创 scrapy专利爬虫（一）——scrapy简单介绍

scrapy专利爬虫（一）——scrapy简单介绍概述scrapy是一款方便，快捷的开源爬虫框架。 An open source and collaborative framework for extracting the data you need from websites. In a fast, simple, yet extensible way.在上一版本中，笔者采用sel

2017-05-22 11:54:21 3621