- 博客(5)
- 资源 (9)
- 收藏
- 关注
原创 scrapy专利爬虫(四)——数据处理
scrapy专利爬虫(四)——数据处理说到scrapy的数据处理,就必须先介绍两个组件item和pipeline。itemitem的使用比较简单,只需要定义一个继承自scrapy.Item的类,在类中定义需要采集的元素即可,比如: # 专利名称 name = scrapy.Field() # 类型(公告,授权公告) type = scrapy.Field() #
2017-05-22 11:56:38 3807
原创 scrapy专利爬虫(三)——简单实际操作
scrapy专利爬虫(三)——简单实际操作确定链接在chrome中打开审查元素中的network选项,查看查询专利时发送的请求。观察后发现在每次查询的时候,浏览器都会先发送两条请求给服务器。发送相关请求经过观察发现,网站的查询流程是先发送不带参数的post请求preExecuteSearch!preExcuteSearch.do将ip地址传给服务器然后再发送biaogejsAC!executeC
2017-05-22 11:56:02 3249
原创 scrapy专利爬虫(二)——请求相关
scrapy专利爬虫(二)——请求相关在这里笔者将会介绍一些关于发送request的相关内容。SpiderSpider默认需要填写三个参数:namespider的独立名称,必须唯一allowed_domains允许爬取的范围,以专利爬虫为例,不会超出专利网站的范围,所以只需要填写”pss-system.gov.cn”即可。start_urls起始url,spider会首先请求这个参数里的地
2017-05-22 11:54:57 2075
原创 scrapy专利爬虫(一)——scrapy简单介绍
scrapy专利爬虫(一)——scrapy简单介绍概述scrapy是一款方便,快捷的开源爬虫框架。 An open source and collaborative framework for extracting the data you need from websites. In a fast, simple, yet extensible way.在上一版本中,笔者采用sel
2017-05-22 11:54:21 3621
原创 ubuntu设置root登录
简单做个笔记 由于ubuntu默认关掉了ssh的root登录,所以需要做如下处理开放root登录设置root密码在终端执行sudo passwd root简单测试su -修改配置文件vi /etc/ssh/sshd_config将PermitRootLogin后面改为yes
2017-05-07 02:00:57 362
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人