使用 Scrapy 框架对重复的 url 无法获取数据，dont_filter=True

最新推荐文章于 2022-10-13 10:32:24 发布

月亮给我抄代码

最新推荐文章于 2022-10-13 10:32:24 发布

阅读量2k

点赞数 2

文章标签： scrapy 大数据 python 网络爬虫

本文链接：https://blog.csdn.net/weixin_46389691/article/details/126124785

版权

场景：代码没有报错，而且确定 xpath 表达式正确解析。

可能的原因是：你使用了 Scrapy 对重复的 url 进行请求。

Scrapy 内置了重复过滤功能，默认情况下该功能处于打开状态。

如下实例，parse2 无法被调用：

import scrapy

class ExampleSpider(scrapy.Spider):
    name ="test"
    # allowed_domains = ["https://www.baidu.com/"]

    start_urls = ["https://www.baidu.com/"]

    def parse(self,response):
        yield scrapy.Request(self.start_urls[0],callback=self.parse2)

    def parse2(self, response):
        print(response.url)

Scrapy 在进入 parse 时，会默认请求一次 start_urls[0]，而当你在 parse 中又对 start_urls[0] 进行请求时，Scrapy 底层会默认过滤掉重复的 url，不会对该请求进行提交，这就是为什么 parse2 不被调用的原因。

解决方法：

添加 dont_filter=True 参数，这样 Scrapy 就不会过滤掉重复的请求。

import scrapy

class ExampleSpider(scrapy.Spider):
    name ="test"
    # allowed_domains = ["https://www.baidu.com/"]

    start_urls = ["https://www.baidu.com/"]

    def parse(self,response):
        yield scrapy.Request(self.start_urls[0],callback=self.parse2,dont_filter=True)

    def parse2(self, response):
        print(response.url)

此时，parse2 会被正常调用。

月亮给我抄代码

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
2
评论
使用 Scrapy 框架对重复的 url 无法获取数据，dont_filter=True

Scrapy在进入parse时，会默认请求一次start_urls[0]，而当你在parse中又对start_urls[0]进行请求时，Scrapy底层会默认过滤掉重复的url，不会对该请求进行提交，这就是为什么parse2不被调用的原因。添加dont_filter=True参数，这样Scrapy就不会过滤掉重复的请求。Scrapy内置了重复过滤功能，默认情况下该功能处于打开状态。你使用了Scrapy对重复的url进行请求。此时，parse2会被正常调用。...
复制链接

扫一扫