![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
will4906
一个走在计算机医疗行业的大学生
展开
-
使用python+selenium+PantomJs+javascript爬取专利数据
环境准备安装python3.5selenium 下载PantomJs.exe爬取目标专利网站爬取专利名,申请人,发明人等爬取过程通过selenium获取PhantomJs的webdriver实例先导入webdriver的包 from selenium import webdriver获取实例 driver = webdriver.PhantomJS(executable_pa原创 2017-04-03 01:44:07 · 10249 阅读 · 2 评论 -
scrapy专利爬虫(一)——scrapy简单介绍
scrapy专利爬虫(一)——scrapy简单介绍概述scrapy是一款方便,快捷的开源爬虫框架。 An open source and collaborative framework for extracting the data you need from websites. In a fast, simple, yet extensible way.在上一版本中,笔者采用sel原创 2017-05-22 11:54:21 · 3609 阅读 · 0 评论 -
scrapy专利爬虫(二)——请求相关
scrapy专利爬虫(二)——请求相关在这里笔者将会介绍一些关于发送request的相关内容。SpiderSpider默认需要填写三个参数:namespider的独立名称,必须唯一allowed_domains允许爬取的范围,以专利爬虫为例,不会超出专利网站的范围,所以只需要填写”pss-system.gov.cn”即可。start_urls起始url,spider会首先请求这个参数里的地原创 2017-05-22 11:54:57 · 2051 阅读 · 0 评论 -
scrapy专利爬虫(三)——简单实际操作
scrapy专利爬虫(三)——简单实际操作确定链接在chrome中打开审查元素中的network选项,查看查询专利时发送的请求。观察后发现在每次查询的时候,浏览器都会先发送两条请求给服务器。发送相关请求经过观察发现,网站的查询流程是先发送不带参数的post请求preExecuteSearch!preExcuteSearch.do将ip地址传给服务器然后再发送biaogejsAC!executeC原创 2017-05-22 11:56:02 · 3208 阅读 · 0 评论 -
scrapy专利爬虫(四)——数据处理
scrapy专利爬虫(四)——数据处理说到scrapy的数据处理,就必须先介绍两个组件item和pipeline。itemitem的使用比较简单,只需要定义一个继承自scrapy.Item的类,在类中定义需要采集的元素即可,比如: # 专利名称 name = scrapy.Field() # 类型(公告,授权公告) type = scrapy.Field() #原创 2017-05-22 11:56:38 · 3789 阅读 · 0 评论 -
python requests模拟登陆带验证码的网站
作为之前专利爬虫的续篇,本篇准备描述如何通过python的requests模块登录专利查询网站。环境准备python 3.6requestschrome尝试首先,我们使用chrome尝试登录专利网站,并通过network分析各个请求的相关信息。 通过分析network,我们可以看到,一次登录操作,有以上相关请求。特别注意的是,以为登录成功后页面会刷新,我们需要将Network工具栏上的Pre原创 2017-08-12 17:41:27 · 46325 阅读 · 16 评论