初识scrapy爬虫框架

欢迎关注”生信修炼手册”!

框架是为了解决特定的业务场景而开发的一套高质量代码,通过框架避免了重复造轮子的低效模式,可以更加专注于具体业务相关的代码。在python中,scrapy就是一个主流的爬虫框架,可以通过如下方式进行安装

pip install scrapy

scrapy框架的架构如下

核心是Scrapy引擎,其他各部分的功能如下

1. Spiders,主要有两个功能,提供需要解析的url链接,即Requests,  同时负责解析html页面,从其中提取需要的信息,提取出来的标准化信息称之为Item;

2. Scheduler,称之为调度器,负责对多个Requests任务进行调度

3. Downloader Middlewares, 下载中间件,可以对Requests请求进行封装,典型的应用是添加User-Agent信息,

4. Downloader,负责下载,下载对应的Requests,从服务器获取响应信息,即Responses

5. Item PIpeline,Spiders将提取出标准的Item信息,交给Item PIpeline进行处理,比如去重复等操作

下面通过一个小的实例来看下该框架的使用,通过如下代码可以新建一个爬虫项目

python -m scrapy startproject hello_world

在hello_world目录下,包含了如下以及文件

其中的setting.py 文件保存了爬虫相关的设置信息,最常见的用法是对以下选项进行设置

ROBOTSTXT_OBEY = False

这样爬虫就可以无视网站的roborts.txt文件,继续爬取。项目启动之后,我们首先要做的就是在spiders目录下,新建一个文件,编写我们的爬虫代码,文件的名字自己定义,内容示例如下

import 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值