scrapy初学——基本信息

Scrapy框架
5+2结构(Spider——Engine——Download——Scheduler——Item Piplines——Middleware*2)
Engine——控制所有模块之间的数据流
——根据条件出发事件
Downloer——根据要求下载页面(Downloader Middleware实施Engine、Scheduler和Downloader之间进行用户可配置的控制)
Scheulder——对所有爬虫请求进行调度管理
Spider——解析Downloader返回的响应(Response)
——产生爬取项(csraped item)
——产生额外的爬取请求)(Requset)
Item Ppipelines——以流水线方式处理Spider产生的爬取项
——由一组操作顺序组成,类似流水线,每个操作是一个Item Pipeline类型
——清理、检验和查重爬取项中的HTML数据,将数据存储到数据库
——Spider Middleware(对请求和爬取项的在处理——修改、丢弃、新增请求或爬取项)

scrapy使用步骤:
1、建立爬虫工程(startproject)
spracy.cfg——部署Scrapy爬虫的配置文件
init——初始化脚本
items.py——Items代码模版(继承类)
middlewares.py——Middlewares代码模版(继承类)
pipelines.py——Ppipelines代码模版(继承类)
settings.py——Scrapy爬虫的配置文件
spiders/——代码模板目录(继承类)

2、在工程中生成一个Scrapy爬虫(gensider)
name——爬虫名字
allowed_domains——域名
start——urls = []——初始页面
def parse(self,response):——解析页面

3、配置产生的spider
4、运行爬虫(crawl)

***生成器yield——节省存储空间、响应更迅速、使用更灵活

Scrapy爬虫数据类型
1、Request(url、method、headers、body(字符串类型)、meta、copy())
表示一个HTTP请求
由Spider生成,由Downloader执行
2、Response(url、status(状态码,200)、headers、body、flags(一组标记)、requests(产生Response对应的Request对象)、copy())
表示一个HTTP响应
由Downloader生成,由Spider执行。
3、Item
表示一个从HTML页面中提取的信息内容
由Spider生成,由Item Ppieline处理
类似字典类型

Scrapy提取信息的方法
BeautifulSoup
lxml
re
XPath Selector
CSS Selector——.css(‘标签名称::attr(标签属性)’).extract()

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值