Scrapy--CrawlSpider全站爬取

CrawlSpider继承了scrapy.spiders类

  • 增加了功能:允许客户自定义方法来搜索url继续爬取。

使用CrawlSpider的优缺点

  • 优点:我们可以方便爬取我们想要的相关url
  • 缺点:由于Rules在获取到url直接运行回调函数,在中间过程我们无法加入其它操作,使之有了局限性。
其他功能:可以配合redis完成增量式爬虫

CrawlSpider的机制:

- 链接提取器: 可以根据指定的规则进行连接的提取
- 规则解析器: 跟据指定的规则对响应数据进行解析

Rules

连接提取器,一个包含一个(或多个) Rule 对象的集合(list)。 每个 Rule 对爬取网站的一类URL链接定义了特定表现。 如果多个Rule匹配了相同的链接,则根据他们在本属性中被定义的顺序,第一个会被使用。

rules规则
def __init__(self, link_extractor, callback=None, cb_kwargs=None, follow=None, process_links=None, process_request=identity)
  • link_extractor:定义需要提取的链接
  • callback:从link_extractor中每获取到匹配的链接时将会调用该函数。也就是规则解析器,我们可以自定义解析方式来获取数据。
  • cb_kwargs 包含传递给回调函数的参数(keyword argument)的字典。
  • follow:如果 callback 为 None, follow 默认设置为 True ,否则默认为 False 。指定是否要跟进url,若为true&
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值