![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
will4906
一个走在计算机医疗行业的大学生
展开
-
使用python+selenium+PantomJs+javascript爬取专利数据
环境准备安装python3.5selenium 下载PantomJs.exe爬取目标专利网站爬取专利名,申请人,发明人等爬取过程通过selenium获取PhantomJs的webdriver实例先导入webdriver的包 from selenium import webdriver获取实例 driver = webdriver.PhantomJS(executable_pa原创 2017-04-03 01:44:07 · 10249 阅读 · 2 评论 -
scrapy专利爬虫(一)——scrapy简单介绍
scrapy专利爬虫(一)——scrapy简单介绍概述scrapy是一款方便,快捷的开源爬虫框架。 An open source and collaborative framework for extracting the data you need from websites. In a fast, simple, yet extensible way.在上一版本中,笔者采用sel原创 2017-05-22 11:54:21 · 3609 阅读 · 0 评论 -
scrapy专利爬虫(二)——请求相关
scrapy专利爬虫(二)——请求相关在这里笔者将会介绍一些关于发送request的相关内容。SpiderSpider默认需要填写三个参数:namespider的独立名称,必须唯一allowed_domains允许爬取的范围,以专利爬虫为例,不会超出专利网站的范围,所以只需要填写”pss-system.gov.cn”即可。start_urls起始url,spider会首先请求这个参数里的地原创 2017-05-22 11:54:57 · 2051 阅读 · 0 评论 -
scrapy专利爬虫(三)——简单实际操作
scrapy专利爬虫(三)——简单实际操作确定链接在chrome中打开审查元素中的network选项,查看查询专利时发送的请求。观察后发现在每次查询的时候,浏览器都会先发送两条请求给服务器。发送相关请求经过观察发现,网站的查询流程是先发送不带参数的post请求preExecuteSearch!preExcuteSearch.do将ip地址传给服务器然后再发送biaogejsAC!executeC原创 2017-05-22 11:56:02 · 3208 阅读 · 0 评论 -
scrapy专利爬虫(四)——数据处理
scrapy专利爬虫(四)——数据处理说到scrapy的数据处理,就必须先介绍两个组件item和pipeline。itemitem的使用比较简单,只需要定义一个继承自scrapy.Item的类,在类中定义需要采集的元素即可,比如: # 专利名称 name = scrapy.Field() # 类型(公告,授权公告) type = scrapy.Field() #原创 2017-05-22 11:56:38 · 3789 阅读 · 0 评论 -
python requests模拟登陆带验证码的网站
作为之前专利爬虫的续篇,本篇准备描述如何通过python的requests模块登录专利查询网站。环境准备python 3.6requestschrome尝试首先,我们使用chrome尝试登录专利网站,并通过network分析各个请求的相关信息。 通过分析network,我们可以看到,一次登录操作,有以上相关请求。特别注意的是,以为登录成功后页面会刷新,我们需要将Network工具栏上的Pre原创 2017-08-12 17:41:27 · 46325 阅读 · 16 评论 -
关于链表的一些操作总结
链表反转这是一个简单的链表操作问题,在leetcode上面有52.7%的通过率,难度是简单。但是还是想在这里基于python做一下总结,顺便总结一下链表的各种操作。首先先看一下leetcode上面的题目:反转一个单链表。示例:输入: 1->2->3->4->5->NULL输出: 5->4->3->2->1->NULL进阶:...原创 2018-10-03 22:06:56 · 730 阅读 · 0 评论 -
django生产环境部署
最近尝试进行一些python web生产环境部署的任务。主要是使用django框架进行web开发。本地使用windows + python3.7可是上到服务器之后是ubuntu系统。ubuntu默认是python2和python3.5两者都不符合现在的python开发版本。笔者尝试进行了部署。一般来说,部署一个django web项目需要部署,数据库,nginx, gunicorn和supervi...原创 2019-03-20 22:12:44 · 1333 阅读 · 0 评论