- 博客(5)
- 收藏
- 关注
原创 scrapy-2
接1编写爬虫spider,是用户编写用于从网站上爬取数据的类。里面需要包含: 用于下载的初始url(start_urls)爬虫名字(name)如何跟进网页中用户的链接(parse方法)分析页面中的内容提取生成item的方法import scrapyfrom scrapy.http import Requestfrom qiubai2.items import Qiubai2Item
2017-03-03 14:09:36 180
原创 scrapy-1
1. scrapy是什么? scrapy是python开发的一个web抓取框架,用于抓取web站点并从中提取结构化的数据。由于它是一个框架,所以应用者可以根据需求自由修改。除此之外,它提供了多种类型爬虫的基类。可以应用在数据挖掘,信息处理和自动化测试等多方面。俗称'西瓜皮','小刮刮'。 2.scrapy框架 - scrapy Engine:爬虫引擎,是工作的核心,负责数据流在
2017-03-03 10:35:40 250
原创 Scrapy
scrapy是什么? scrapy是python开发的一个web抓取框架,用于抓取web站点并从中提取结构化的数据。由于它是一个框架,所以应用者可以根据需求自由修改。除此之外,它提供了多种类型爬虫的基类。可以应用在数据挖掘,信息处理和自动化测试等多方面。俗称’西瓜皮’,’小刮刮’。scrapy框架scrapy Engine:爬虫引擎,是工作的核心,负责数据流在系统所有组件中的流动schedul
2017-03-03 09:31:50 272
原创 urllib
urllib模块的应用: python2里分为urllib,urllib2等模块,在3中合成了一个,另外还有urlib3等其他模块。其实他是个一个包,包括了request,error,parse,robotparser四个模块。最常用的就是request模块。 在应用是需要先导入urllib.request模块。 import urllib.request 常用的函数: urllib.re
2017-01-24 13:12:07 215
原创 欢迎使用CSDN-markdown编辑器
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl
2017-01-24 12:46:09 140
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人