自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 scrapy-2

接1编写爬虫spider,是用户编写用于从网站上爬取数据的类。里面需要包含: 用于下载的初始url(start_urls)爬虫名字(name)如何跟进网页中用户的链接(parse方法)分析页面中的内容提取生成item的方法import scrapyfrom scrapy.http import Requestfrom qiubai2.items import Qiubai2Item

2017-03-03 14:09:36 180

原创 scrapy-1

1. scrapy是什么? scrapy是python开发的一个web抓取框架,用于抓取web站点并从中提取结构化的数据。由于它是一个框架,所以应用者可以根据需求自由修改。除此之外,它提供了多种类型爬虫的基类。可以应用在数据挖掘,信息处理和自动化测试等多方面。俗称'西瓜皮','小刮刮'。 2.scrapy框架 - scrapy Engine:爬虫引擎,是工作的核心,负责数据流在

2017-03-03 10:35:40 250

原创 Scrapy

scrapy是什么? scrapy是python开发的一个web抓取框架,用于抓取web站点并从中提取结构化的数据。由于它是一个框架,所以应用者可以根据需求自由修改。除此之外,它提供了多种类型爬虫的基类。可以应用在数据挖掘,信息处理和自动化测试等多方面。俗称’西瓜皮’,’小刮刮’。scrapy框架scrapy Engine:爬虫引擎,是工作的核心,负责数据流在系统所有组件中的流动schedul

2017-03-03 09:31:50 272

原创 urllib

urllib模块的应用: python2里分为urllib,urllib2等模块,在3中合成了一个,另外还有urlib3等其他模块。其实他是个一个包,包括了request,error,parse,robotparser四个模块。最常用的就是request模块。 在应用是需要先导入urllib.request模块。 import urllib.request 常用的函数: urllib.re

2017-01-24 13:12:07 215

原创 欢迎使用CSDN-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2017-01-24 12:46:09 140

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除