Scrapy

最新推荐文章于 2024-09-28 22:01:56 发布

weixin_45148250

最新推荐文章于 2024-09-28 22:01:56 发布

阅读量120

点赞数

本文链接：https://blog.csdn.net/weixin_45148250/article/details/100135064

版权

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。其可以应用在数据挖掘，信息
处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也
可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。
Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。
Scrapy 使用了 Twisted异步网络库来处理网络通讯。

架构

组件

引擎(Scrapy)，调度器(Scheduler)，下载器(Downloader)，爬虫(Spiders)，
项目管道(Pipeline)，下载器中件(Downloader Middlewares)，
爬虫中间件(Spider Middlewares)，调度中间件(Scheduler Middewares)

引擎(Scrapy) 用来处理整个系统的数据流, 触发事务(框架核心)
调度器(Scheduler) 用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址
下载器(Downloader) 用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy下载器是建立在twisted这个高效的异步模型上的)
爬虫(Spiders) 爬虫是主要干活的, 用于从特定的网页中提取自己需要的信息, 即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面
项目管道(Pipeline) 负责处理爬虫从网页中抽取的实体，主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。当页面被爬虫解析后，将被发送到项目管道，并经过几个特定的次序处理数据。
下载器中间件(Downloader Middlewares) 位于Scrapy引擎和下载器之间的框架，主要是处理Scrapy引擎与下载器之间的请求及响应。
爬虫中间件(Spider Middlewares) 介于Scrapy引擎和爬虫之间的框架，主要工作是处理蜘蛛的响应输入和请求输出。
调度中间件(Scheduler Middewares) 介于Scrapy引擎和调度之间的中间件，Scrapy引擎发送到调度的请求和响应。
Scrapy运行流程大概如下：

引擎从调度器中取出一个链接(URL)用于接下来的抓取
引擎把URL封装成一个请求(Request)传给下载器
下载器把资源下载下来，并封装成应答包(Response)
爬虫解析Response
解析出实体（Item）,则交给实体管道进行进一步的处理
解析出的是链接（URL）,则把URL交给调度器等待抓取

安装Scrapy

Scrapy命令
startproject
语法： scrapy startproject <project_name> [project_dir]
在目录project_name下创建一个名为的Scrapy项目project_dir 。如果project_dir没有指定，project_dir将会和myproject名称一样。
用法示例：
$ scrapy startproject myproject
genspider语法： scrapy genspider [-t template] 1 pip install scrapy
在当前文件夹或当前项目的spiders文件夹中创建一个新的爬虫，如果从项目中调用。该参数设置为爬虫的name，而用于生成allowed_domains 和 start_urls 爬虫的属性。
用法示例：
这只是一个方便的快捷命令，用于创建基于预定义模板的爬虫，但当然不是唯一的方式来创建爬虫。您可以自己创建爬虫源代码文件，而不是使用此命令。
crawl语法： scrapy crawl
使用爬虫开始爬行。
用法示例：
Selectors选择器
Scrapy Selectors内置 XPath和CSS Selector选择器
Selector有四基本方法
XPath：传入xpath表达式，返回该表达式所对应的所有节点的list列表
extract()：序列化该节点为Unicode字符串并返回list
css()：传入CSS表达式，返回该表达式所对应的list列表
re() ：根据传入的正则表达式对数据进行提取

scrapy爬虫的开发步骤

新建项目(scrapy startproject xxx)：新建一个新的爬虫项目
$ scrapy genspider -l Available templates: basic crawl csvfeed xmlfeed $ scrapy genspider example example.com Created spider ‘example’ using template ‘basic’ $ scrapy genspider -t crawl scrapyorg scrapy.org Created spider ‘scrapyorg’ using template ‘crawl’ 123456789101112 $ scrapy crawl myspider [ … myspider starts crawling … ] # 可以直接把怕取的结果输出到一个文件内 scrapy crawl myspider -o mu.json 12345 # extract()返回的值都是list # 取属性 response.css(‘ul.top-list.fn-clear>li>h5>a::attr(href)’).extract() # 取文本 response.css(‘ul.top-list.fn-clear>li>h5>a::text’).extract() 12345
明确目标(编写items.py)：明确要抓取的目标
制作爬虫(spiders/xxxspider.py)：制作爬虫开始爬取网页
存储内容(pipelines.py)：设计管道存储爬虫内容
示例
入门篇：美剧天堂前100最新（http://www.meijutt.com/new100.html） 1、创建工程
2、创建爬虫程序
3、自动创建目录及文件
4、文件说明：
scrapy.cfg 项目的配置信息，主要为Scrapy命令行工具提供一个基础的配置信息。（真正爬虫相关
的配置信息在settings.py文件中）
items.py 设置数据存储模板，用于结构化数据，如：flask里的Model
pipelines 数据处理行为，如：一般结构化的数据持久化
settings.py 配置文件，如：递归的层数、并发数，延迟下载等
spiders 爬虫目录，如：创建文件，编写爬虫规则
注意：一般创建爬虫文件时，以网站域名命名
5、设置数据存储模板
items.py 1 scrapy startproject movie cd movie scrapy genspider meiju meijutt.com 12 import scrapy class MovieItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() name = scrapy.Field() 12345
6、编写爬虫
meiju.py 7、设置配置文件
settings.py增加如下内容
8、编写数据处理脚本
pipelines.py 9、执行爬虫
定义py文件，使用PyCharm执行爬虫 main.py ,跟 scrapy.cfg 文件同级，然后就可以执行该py文件，
执行爬虫，并调试了
#-- coding: utf-8 -- import scrapy from movie.items import MovieItem class MeijuSpider(scrapy.Spider): name = “meiju” allowed_domains = [“meijutt.com”] start_urls = [‘http://www.meijutt.com/new100.html’] def parse(self, response): movies = response.css(‘ul.top-list.fn- clear>li>h5>a::text’).extract() # 取某元素的属性 # movies = response.css(‘ul.top-list.fn- clear>li>h5>a::attr(href)’).extract() for each_movie in movies: item = MovieSpiderItem() item[‘name’] = each_movie yield item 1234567891011121314151617181 ITEM_PIPELINES = {‘movie.pipelines.MoviePipeline’:100} class MoviePipeline(object): def process_item(self, item, spider): print(item) with open(“my_meiju.txt”, ‘a’, encoding = “utf-8”) as fp: fp.write(item[‘name’]+’\n’) return item 123456 cd movie scrapy crawl meiju --nolog # 直接将结果放到一个json文件里 scrapy crawl meiju -o meiju.json 1234
10、结果
进阶篇：爬取校花网（http://www.xiaohuar.com/list-1-1.html）
1、创建一个工程
scrapy startproject pic
2、创建爬虫程序
cd pic
scrapy genspider xh xiaohuar.com 12
3、自动创建目录及文件

我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准的Markdown编辑器功能，我们增加了如下几点新功能，帮助你用它写博客：

全新的界面设计 ，将会带来全新的写作体验；
在创作中心设置你喜爱的代码高亮样式，Markdown 将代码片显示选择的高亮样式 进行展示；
增加了 图片拖拽 功能，你可以将本地的图片直接拖拽到编辑区域直接展示；
全新的 KaTeX数学公式 语法；
增加了支持甘特图的mermaid语法¹ 功能；
增加了 多屏幕编辑 Markdown文章功能；
增加了 焦点写作模式、预览模式、简洁写作模式、左右区域同步滚轮设置 等功能，功能按钮位于编辑区域与预览区域中间；
增加了 检查列表 功能。

功能快捷键

撤销：Ctrl/Command + Z
重做：Ctrl/Command + Y
加粗：Ctrl/Command + B
斜体：Ctrl/Command + I
标题：Ctrl/Command + Shift + H
无序列表：Ctrl/Command + Shift + U
有序列表：Ctrl/Command + Shift + O
检查列表：Ctrl/Command + Shift + C
插入代码：Ctrl/Command + Shift + K
插入链接：Ctrl/Command + Shift + L
插入图片：Ctrl/Command + Shift + G
查找：Ctrl/Command + F
替换：Ctrl/Command + G

合理的创建标题，有助于目录的生成

直接输入1次#，并按下space后，将生成1级标题。
输入2次#，并按下space后，将生成2级标题。
以此类推，我们支持6级标题。有助于使用TOC语法后生成一个完美的目录。

如何改变文本的样式

强调文本 强调文本

加粗文本 加粗文本

标记文本

~~删除文本~~

引用文本

H₂O is是液体。

2¹⁰ 运算结果是 1024.

插入链接与图片

链接: link.

图片: Alt

带尺寸的图片:

居中的图片: Alt

居中并且带尺寸的图片:

当然，我们为了让用户更加便捷，我们增加了图片拖拽功能。

如何插入一段漂亮的代码片

去博客设置页面，选择一款你喜欢的代码片高亮样式，下面展示同样高亮的 代码片.

// An highlighted block
var foo = 'bar';

生成一个适合你的列表

项目
- 项目
  - 项目

项目1
项目2
项目3

计划任务
完成任务

创建一个表格

一个简单的表格是这么创建的：

项目	Value
电脑	$1600
手机	$12
导管	$1

设定内容居中、居左、居右

使用:---------:居中
使用:----------居左
使用----------:居右

第一列	第二列	第三列
第一列文本居中	第二列文本居右	第三列文本居左

SmartyPants

SmartyPants将ASCII标点字符转换为“智能”印刷标点HTML实体。例如：

TYPE	ASCII	HTML
Single backticks	`'Isn't this fun?'`	‘Isn’t this fun?’
Quotes	`"Isn't this fun?"`	“Isn’t this fun?”
Dashes	`-- is en-dash, --- is em-dash`	– is en-dash, — is em-dash