初识scrapy爬虫框架

最新推荐文章于 2024-08-08 14:28:23 发布

生信修炼手册

最新推荐文章于 2024-08-08 14:28:23 发布

阅读量250

点赞数

文章标签：编程语言 python linux 大数据 css

本文链接：https://blog.csdn.net/weixin_43569478/article/details/109507599

版权

本文介绍了Python的scrapy爬虫框架，包括其核心组件和工作流程。通过一个小实例展示了如何创建和运行一个基本的scrapy爬虫，用于从miRTarBase数据库抓取人类miRNA的靶基因信息。scrapy的异步io特性使得爬取速度快，提高了开发效率。

摘要由CSDN通过智能技术生成

欢迎关注”生信修炼手册”!

框架是为了解决特定的业务场景而开发的一套高质量代码，通过框架避免了重复造轮子的低效模式，可以更加专注于具体业务相关的代码。在python中，scrapy就是一个主流的爬虫框架，可以通过如下方式进行安装

pip install scrapy

scrapy框架的架构如下

核心是Scrapy引擎，其他各部分的功能如下

1. Spiders,主要有两个功能，提供需要解析的url链接，即Requests, 同时负责解析html页面，从其中提取需要的信息，提取出来的标准化信息称之为Item;

2. Scheduler,称之为调度器，负责对多个Requests任务进行调度

3. Downloader Middlewares, 下载中间件，可以对Requests请求进行封装，典型的应用是添加User-Agent信息，

4. Downloader,负责下载，下载对应的Requests，从服务器获取响应信息，即Responses

5. Item PIpeline，Spiders将提取出标准的Item信息，交给Item PIpeline进行处理，比如去重复等操作

下面通过一个小的实例来看下该框架的使用，通过如下代码可以新建一个爬虫项目

python -m scrapy startproject hello_world

在hello_world目录下，包含了如下以及文件

其中的setting.py 文件保存了爬虫相关的设置信息，最常见的用法是对以下选项进行设置

ROBOTSTXT_OBEY = False

这样爬虫就可以无视网站的roborts.txt文件，继续爬取。项目启动之后，我们首先要做的就是在spiders目录下，新建一个文件，编写我们的爬虫代码，文件的名字自己定义，内容示例如下

import scrapy

from hello_world.items import HelloWorldItem


class MirSpider(scrapy.Spider):
    name = "MirSpider"
    start_urls = ["http://mirtarbase.cuhk.edu.cn/php/search.php?opt=species&org=hsa&sort=id&order=asc&page={}".format(i) for i in range(1, 100)]


    def parse(self, response