Scrapy爬虫中处理重定向(301\302)问题

问题背景

例如,在爬取https://www.price.com.hk时,我们遇到了一个302重定向问题,日志如下:

2024-04-24 15:49:40 [scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (302) to <GET https://m.price.com.hk/category.php?c=100002&page=2> from <GET https://www.price.com.hk/category.php?c=100002&page=2>
2024-04-24 15:49:42 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://m.price.com.hk/category.php?c=100002&page=2> (referer: https://www.price.com.hk/category.php?c=100002)
2024-04-24 15:49:42 [scrapy.core.engine] INFO: Closing spider (finished)

爬虫在处理重定向后关闭,这通常意味着爬虫未能正确处理重定向请求。

解决方法

步骤一:自定义下载中间件处理重定向

自定义下载中间件可以让我们在遇到重定向时重新发起请求。以下是一个简单的中间件示例:

# mymiddlewares.py

import scrapy

class RedirectMiddleware(object):
    def process_response(self, request, response, spider):
        # 当状态码为301或302时,重新发起请求
        if response.status in [301, 302]:
            return scrapy.Request(url=response.url, dont_filter=True, callback=request.callback)
        # 其他状态码直接返回响应
        return response

方法二:修改settings.py配置文件

# settings.py

# ...

# 禁用Scrapy内置的重定向中间件
REDIRECT_ENABLED = False

# 启用自定义下载中间件
DOWNLOADER_MIDDLEWARES = {
    'myproject.mymiddlewares.RedirectMiddleware': 543,
}

# ...

确保将myproject替换为你的项目实际的名称。

通过以上两个步骤,你的Scrapy爬虫就能更好地处理来自网站的301和302重定向问题,而不会因为重定向而导致爬虫意外关闭。这样可以更好控制重定向逻辑,保证爬虫的稳定运行和数据的完整性。

  • 4
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值