crawlspider爬虫补充说明

最新推荐文章于 2023-10-04 09:39:33 发布

yuhui_2000

最新推荐文章于 2023-10-04 09:39:33 发布

阅读量181

点赞数

分类专栏： scrapy框架学习文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yuhui_2000/article/details/109083313

版权

注意点

1.用命令创建一个crawlspider的模板

scrapy genspider -t crawl 爬虫名字 允许爬取的范围

2.crawlspider中不能够再有以parse为名字的数据提取方法，因为这个方法已经被crawlspider用来实现基础url提取等功能
3.一个Rule对象接受多个参数，首先第一个是包含url规则的LinkExtractor对象
常用的还有callback（指定满足规则的url的解析函数的字符串）和follow（response中提取的链接是否需要跟进）
4.不指定callback函数的请求下，如果follow为True，满足该rule的url还会继续被请求
5.如果多个Rule都满足某一个url，会从rules中选择第一个满足的进行操作
这就告诉我们，在我们书写正则表达式的时候应该将其写的复杂一些，不要出现一个url地址可以匹配多个正则表达式的情况

补充（参数了解）

LinkExtractor更多常见的参数：

allow 满足括号中“正则表达式”url会被提取，如果为空，则全部匹配
deny 满足括号中“正则表达式”的url一定不提取，优先级高于allow
allow_domains 会被提取的链接的domains
deny_domains 一定不会被被提取的链接的domains
restrict_xpaths 使用xpath表达式，和allow共同作用过滤链接&

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
crawlspider爬虫补充说明

注意点1.用命令创建一个crawlspider的模板scrapy genspider -t crawl 爬虫名字允许爬取的范围2.crawlspider中不能够再有以parse为名字的数据提取方法，因为这个方法已经被crawlspider用来实现基础url提取等功能3.一个Rule对象接受多个参数，首先第一个是包含url规则的LinkExtractor对象常用的还有callback（指定满足规则的url的解析函数的字符串）和follow（response中提取的链接是否需要跟进）4.不指定c
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。