Scrapy框架-redis分布式(从Scrapy框架创建项目到redis分布式)

本文详细介绍了如何使用Scrapy框架结合Redis实现分布式爬虫。首先,创建Scrapy项目,定义Item来存储数据,编写Spider进行网页请求和解析。接着,介绍如何安装scrapy-redis,修改Spider类,将start_urls替换为redis_key,并在settings.py中配置调度器和去重类。最后,启动Redis服务器,运行Scrapy项目,通过Redis客户端添加初始URL,实现分布式爬取。
摘要由CSDN通过智能技术生成
  •  盗墓笔记案例:

目标网址:http://www.daomubiji.com/

scrapy项目:

        1. 创建项目

        2. 创建爬虫

        3. 定义item

                数据内容:

                        1. 书的名称

                        2. 章节名称

                        3. 文本内容

        4. 编写spider

                1. 定义初始请求

                2. 解析响应内容

        5. 定义管道

        6. 运行项目

开始实现步骤Scrapy框架

 1. 创建项目CMD中可以实现

  • 在cmd中创建scrapy项目

#scrapy startproject '项目名称'

scrapy startproject domu
  • 进入到domu项目

cd domu

2. 创建爬虫

  • 在domu项目中创建爬虫文件

 
#scrapy genspider example example.com

#example:表示的是爬虫的项目名称

#example.com:表示的是初始化域名

#开始创建
scrapy genspider dm www.daomubiji.com

3. 定义item

  • 首先使用PyCharm或者Visual Studio Code打开刚刚创建的domu项目找到times.py文件并实现定义:

    • 数据内容:

                              1. 书的名称:book_title

                              2. 章节名称:chapter_name

                              3. 文本内容:content_text

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值