Scrapy--CrawlSpider全站爬取

最新推荐文章于 2024-05-13 00:51:49 发布

可待月光

最新推荐文章于 2024-05-13 00:51:49 发布

阅读量899

点赞数

分类专栏：爬虫文章标签： CrawlSpider 电影天堂 scrapy框架全栈爬取 scrapy爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44220464/article/details/99308119

版权

CrawlSpider继承了scrapy.spiders类

增加了功能：允许客户自定义方法来搜索url继续爬取。

使用CrawlSpider的优缺点

优点：我们可以方便爬取我们想要的相关url
缺点：由于Rules在获取到url直接运行回调函数，在中间过程我们无法加入其它操作，使之有了局限性。

其他功能：可以配合redis完成增量式爬虫

CrawlSpider的机制:

- 链接提取器: 可以根据指定的规则进行连接的提取
- 规则解析器: 跟据指定的规则对响应数据进行解析

Rules

连接提取器，一个包含一个(或多个) Rule 对象的集合(list)。每个 Rule 对爬取网站的一类URL链接定义了特定表现。如果多个Rule匹配了相同的链接，则根据他们在本属性中被定义的顺序，第一个会被使用。

rules规则

def __init__(self, link_extractor, callback=None, cb_kwargs=None, follow=None, process_links=None, process_request=identity)

link_extractor：定义需要提取的链接
callback：从link_extractor中每获取到匹配的链接时将会调用该函数。也就是规则解析器，我们可以自定义解析方式来获取数据。
cb_kwargs 包含传递给回调函数的参数(keyword argument)的字典。
follow:如果 callback 为 None， follow 默认设置为 True ，否则默认为 False 。指定是否要跟进url，若为true&

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Scrapy--CrawlSpider全站爬取

CrawlSpider继承了scrapy.spiders类增加了功能：允许客户自定义方法来搜索url继续爬取。使用CrawlSpider的优缺点优点：我们可以方便爬取我们想要的相关url缺点：由于Rules在获取到url直接运行回调函数，在中间过程我们无法加入其它操作，使之有了局限性。其他功能：可以配合redis完成增量式爬虫CrawlSpider的机制:- 连接提取器: 可...
复制链接

扫一扫

专栏目录

可待月光 CSDN认证博客专家 CSDN认证企业博客

码龄6年

39: 原创

11万+: 周排名

57万+: 总排名

5万+: 访问

: 等级

687: 积分

16: 粉丝

17: 获赞

4: 评论

62: 收藏

私信

关注

热门文章

分类专栏

python 1篇
JS 3篇
网络
linux 1篇
mongdb 1篇
vue 3篇
redis 1篇
部署or运维 1篇
网络协议 1篇
python基础 4篇
django 5篇
pc
爬虫 14篇
工具 2篇
数据分析相关 1篇
算法 1篇

最新评论

python dict无序到有序
何以为春: 感谢，在学习OrderedDict的时候发现好像结果总是有序排序，原来3.7改变了默认排序方式。
关于gbk乱码问题（前程无忧）
Tisfy: 好文！，正如：呜呼！楚虽三户能亡秦，岂有堂堂中国空无人！
8月最新千千音乐爬取(requests+bs4)
卡布达蝎子莱莱: 爬了好久的千千，突然就不能用了

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。