BetterL-CSDN博客

原创 scrapy-2

接1编写爬虫spider，是用户编写用于从网站上爬取数据的类。里面需要包含：用于下载的初始url（start_urls)爬虫名字(name)如何跟进网页中用户的链接(parse方法）分析页面中的内容提取生成item的方法import scrapyfrom scrapy.http import Requestfrom qiubai2.items import Qiubai2Item

2017-03-03 14:09:36 239

原创 scrapy-1

1. scrapy是什么？ scrapy是python开发的一个web抓取框架，用于抓取web站点并从中提取结构化的数据。由于它是一个框架，所以应用者可以根据需求自由修改。除此之外，它提供了多种类型爬虫的基类。可以应用在数据挖掘，信息处理和自动化测试等多方面。俗称'西瓜皮','小刮刮'。 2.scrapy框架 - scrapy Engine：爬虫引擎，是工作的核心，负责数据流在

2017-03-03 10:35:40 325

原创 Scrapy

scrapy是什么？ scrapy是python开发的一个web抓取框架，用于抓取web站点并从中提取结构化的数据。由于它是一个框架，所以应用者可以根据需求自由修改。除此之外，它提供了多种类型爬虫的基类。可以应用在数据挖掘，信息处理和自动化测试等多方面。俗称’西瓜皮’,’小刮刮’。scrapy框架scrapy Engine：爬虫引擎，是工作的核心，负责数据流在系统所有组件中的流动schedul

2017-03-03 09:31:50 345

原创 urllib

urllib模块的应用： python2里分为urllib,urllib2等模块，在3中合成了一个，另外还有urlib3等其他模块。其实他是个一个包，包括了request,error,parse,robotparser四个模块。最常用的就是request模块。在应用是需要先导入urllib.request模块。 import urllib.request 常用的函数： urllib.re

2017-01-24 13:12:07 300

原创欢迎使用CSDN-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来，用它写博客，将会带来全新的体验哦：Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2017-01-24 12:46:09 197

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 scrapy-2

原创 scrapy-1

原创 Scrapy

原创 urllib

原创 欢迎使用CSDN-markdown编辑器

空空如也

空空如也

原创欢迎使用CSDN-markdown编辑器