scrapy初学——基本信息

最新推荐文章于 2022-11-19 21:03:21 发布

光明的明

最新推荐文章于 2022-11-19 21:03:21 发布

阅读量328

点赞数

本文链接：https://blog.csdn.net/yz604774431/article/details/89425898

版权

Scrapy框架
5+2结构（Spider——Engine——Download——Scheduler——Item Piplines——Middleware*2）
Engine——控制所有模块之间的数据流
——根据条件出发事件
Downloer——根据要求下载页面（Downloader Middleware实施Engine、Scheduler和Downloader之间进行用户可配置的控制）
Scheulder——对所有爬虫请求进行调度管理
Spider——解析Downloader返回的响应（Response）
——产生爬取项（csraped item）
——产生额外的爬取请求）（Requset）
Item Ppipelines——以流水线方式处理Spider产生的爬取项
——由一组操作顺序组成，类似流水线，每个操作是一个Item Pipeline类型
——清理、检验和查重爬取项中的HTML数据，将数据存储到数据库
——Spider Middleware（对请求和爬取项的在处理——修改、丢弃、新增请求或爬取项）

scrapy使用步骤：
1、建立爬虫工程（startproject）
spracy.cfg——部署Scrapy爬虫的配置文件
init——初始化脚本
items.py——Items代码模版（继承类）
middlewares.py——Middlewares代码模版（继承类）
pipelines.py——Ppipelines代码模版（继承类）
settings.py——Scrapy爬虫的配置文件
spiders/——代码模板目录（继承类）

2、在工程中生成一个Scrapy爬虫（gensider）
name——爬虫名字
allowed_domains——域名
start——urls = []——初始页面
def parse（self，response）：——解析页面

3、配置产生的spider
4、运行爬虫（crawl）

***生成器yield——节省存储空间、响应更迅速、使用更灵活

Scrapy爬虫数据类型
1、Request（url、method、headers、body(字符串类型)、meta、copy()）
表示一个HTTP请求
由Spider生成，由Downloader执行
2、Response（url、status(状态码，200)、headers、body、flags(一组标记)、requests(产生Response对应的Request对象)、copy()）
表示一个HTTP响应
由Downloader生成，由Spider执行。
3、Item
表示一个从HTML页面中提取的信息内容
由Spider生成，由Item Ppieline处理
类似字典类型

Scrapy提取信息的方法
BeautifulSoup
lxml
re
XPath Selector
CSS Selector——.css(‘标签名称::attr(标签属性)’).extract()