scrapy的CrawlSpider类简介

scrapy的CrawlSpider类简介

概述:

  • CrawlSpider类是Spider的派生类
  • Spider类设计原则是只爬取start_url列表中的网页;
  • CrawlSpider允许我们根据一定的URL规则提取跟进的链接,实现对全网站的爬取
  • CrawlSpider类是爬取一般网站最常用的Spider类

CrawlSpider新增属性和方法:

  • rules,爬取规则属性
  • parse_start_url(),可重写的方法

rules属性:

爬取规则属性,包含一个或多个Rule对象的元组

每个Rule对爬取网址的动作做出定义,CrawlSpider读取rules的每个Rule并进行解析

图片1.png

Rule定义和参数:

图片2.png

Rule定义和参数:常见参数

图片4.png

link_extractor,也叫做链接提取器,用来定义具体的爬取规则。

图片6.png

图片7.png

爬取网站获取多页实例:https://www.dushu.com/book/1617.html

rules = (
    Rule(LinkExtractor(allow=r'/book/1617_[\d].html'), callback='parse_item', follow=True),
)
这里的 allow=r'/book/1617_[\d].html' 是指获取所有页

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值