Scrapy高级爬虫学习教程

本文详细介绍了如何使用Scrapy进行全站数据爬取,特别是通过CrawlSpider实现阳光问政数据爬取。接着,讨论了分布式爬虫的概念,解释了原生Scrapy无法实现分布式的原因,并介绍了scrapy-redis组件在分布式爬虫中的作用及实现步骤。此外,还阐述了增量式爬虫的原理和实现方法,包括url检测、持久化存储等关键环节。最后,提到了爬虫项目中所需的相关资源,如redis的安装教程。
摘要由CSDN通过智能技术生成

一、基于CrawlSpider全站数据爬取(阳光问政数据爬取)

1、需求:爬取sun网站中的编号,新闻标题,新闻内容,标号。

  • 分析:爬取的数据没有在同一张页面中。

2、全站数据爬取的方式:

(1) 基于Spider的手动请求

点击获取

(2) 基于CrawlSpider的使用

  • 创建一个工程

  • cd XXX

  • 创建爬虫文件
    scrapy genspider -t crawl xxx www.xxx.com

    链接提取器:根据指定规则(allow=“正则”)进行指定链接的提取

    规则解析器
    将链接提取器提取到的链接进行指定规则(callback)的解析操作

  • 启动项目
    scrapy crawl sun

3、项目实操

切换目录:
cd C:\Users\Administrator\PycharmProjects\pc_test\scrapy框架\

新建项目
scrapy startproject sunPro

新建项目文件sun.py
cd sunPro

scrapy genspider -t crawl sun www.xxx.com

目录
在这里插入图片描述
修改settings.py
在这里插入图片描述
sun.py

---------------------------------------------------------------------------------------------

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

---------------------------------------------------------------------------------------------

items.py
在这里插入图片描述
管道类pipelines.py
在这里插入图片描述sett

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值