Scrapy爬虫中处理重定向(301\302)问题

S4ke

于 2024-04-24 16:55:30 发布

阅读量368

点赞数 4

文章标签： scrapy 爬虫 python

本文链接：https://blog.csdn.net/weixin_60770989/article/details/138163649

版权

问题背景

例如,在爬取https://www.price.com.hk时,我们遇到了一个302重定向问题,日志如下：

2024-04-24 15:49:40 [scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (302) to <GET https://m.price.com.hk/category.php?c=100002&page=2> from <GET https://www.price.com.hk/category.php?c=100002&page=2>
2024-04-24 15:49:42 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://m.price.com.hk/category.php?c=100002&page=2> (referer: https://www.price.com.hk/category.php?c=100002)
2024-04-24 15:49:42 [scrapy.core.engine] INFO: Closing spider (finished)

爬虫在处理重定向后关闭，这通常意味着爬虫未能正确处理重定向请求。

解决方法

步骤一：自定义下载中间件处理重定向

自定义下载中间件可以让我们在遇到重定向时重新发起请求。以下是一个简单的中间件示例：

# mymiddlewares.py

import scrapy

class RedirectMiddleware(object):
    def process_response(self, request, response, spider):
        # 当状态码为301或302时，重新发起请求
        if response.status in [301, 302]:
            return scrapy.Request(url=response.url, dont_filter=True, callback=request.callback)
        # 其他状态码直接返回响应
        return response

方法二：修改settings.py配置文件

# settings.py

# ...

# 禁用Scrapy内置的重定向中间件
REDIRECT_ENABLED = False

# 启用自定义下载中间件
DOWNLOADER_MIDDLEWARES = {
    'myproject.mymiddlewares.RedirectMiddleware': 543,
}

# ...

确保将myproject替换为你的项目实际的名称。

通过以上两个步骤，你的Scrapy爬虫就能更好地处理来自网站的301和302重定向问题，而不会因为重定向而导致爬虫意外关闭。这样可以更好控制重定向逻辑，保证爬虫的稳定运行和数据的完整性。