scrapy处理重定向

最新推荐文章于 2022-06-30 15:19:39 发布

wg5foc08

最新推荐文章于 2022-06-30 15:19:39 发布

阅读量7.6k

点赞数 1

分类专栏： Python

本文链接：https://blog.csdn.net/wg5foc08/article/details/100154358

版权

Python 专栏收录该内容

19 篇文章 0 订阅

订阅专栏

用scrapy爬取网页时出现302状态码，这是网页发生了重定向（在此不解释重定向），如何解决这个问题，只需在settings文件中设置MEDIA_ALLOW_REDIRECTS = True。
我是在爬取文件时初始网页发生重定向无法正常下载，后来解决了这个问题，在下载的时候发生了文件保存错误，路径不对，如果任然使用scrapy自带的pipeline下载文件时一直报错。这时需要改写文件保存的路径就需要重写pipeline方法。

import os
from scrapy.pipelines.files import FilesPipeline
from .settings import FILES_STORE
class SpiderxiaoshuoPipeline(object):
    def process_item(self, item, spider):
        return item
class FilesnamePipeline(FilesPipeline):
    def file_path(self, request, response=None, info=None):
        file_store = FILES_STORE
        name = request.url.split('?')[-1]
        name1 = name.split('&')[2] + '.txt'
        filenmae = os.path.join(file_store,name1)
        return filenmae

这是我改写的Pipeline方法，将爬取的url的链接的Id作为保存文件的名字。

 'spiderxiaoshuo.pipelines.FilesnamePipeline': 1,

将settings文件中的pipiline设置为自己重写的pipeline
改写Pipeline方法是参考https://blog.csdn.net/qq_31235811/article/details/88917771

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

wg5foc08

关注关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Scrapy 2.6 Downloader Middleware 下载器中间件内置参数

Mr数据杨

02-03

3万+

本教程详细介绍了 Scrapy 2.6 版本中内置的下载器中间件。每个中间件在不同的场景下提供了强大的功能，如自动处理 Cookies、遵循robots.txt规则、管理 HTTP 认证和代理等。通过理解和灵活运用这些中间件，开发者可以显著提升爬虫的性能和适应性。在实际应用中，这些工具帮助爬虫有效应对网络环境和目标网站的复杂性，实现高效、稳定的数据抓取。掌握这些中间件的使用后，你将能够更自信地设计和部署复杂的爬虫项目，并根据具体需求定制解决方案。

Scrapy爬虫中处理重定向(301\302)问题

热门推荐

菜鸡小白的成长记录

10-25

3万+

在使用Scrapy框架中URl被重定向，总是遇到这类问题: DEBUG: Redirecting (301/302) to <GET https://XXXX refer https://XXXX> 解决方式：在Scrapy中的Request中添加 dont_filter=True，因为Scrapy是默认过滤掉重复的请求URL，添加上参数之后即使被重定向了也能请求到正常的数据了。在Scrapy框架中的 settings.py文件里添加 HTTPERROR_ALLOWED_COD

scrapy框架重定向

qq_35354887的博客

09-03

475

转自https://stackoverflow.com/questions/39776377/cant-get-scrapy-to-parse-and-follow-301-302-redirects

【Scrapy】301、302重定向问题原因及解决办法

xiangxiang613的专栏

02-26

7377

Scrapy的301、302重定向问题原因及解决办法根据 HTTP标准，返回值为200-300之间的值为成功的response。 Scrapy运行爬虫过程中，目标网站返回301或302，而没有获取到想要的网页内容，表示请求失败。eg： 2019-02-13 17:18:32 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023 2019-02-13 17:18:33 [scrapy.downloaderm

Scrapy爬虫遇见重定向301/302问题解决方法

WuYan_Emperor的博客

06-30

2030

在scrapy爬取数据时，遇到重定向301/302，特别是爬取一个下载链接时，他会直接重定向并开始下载，在下载之后才会返回爬取的链接，这时候就需要中止重定以下302都可以换成301，是一样的。

Scrapy 去重

Keep_on_Growing的博客

09-19

2841

Scrapy 去重 RFPDupeFilter这个类 set()集合那么在 scrapy 中是如何来使用这个类的方法的呢？什么时候使用，这个流程是怎样的呢？这个可以追溯到 scrapy.core.scheduler 中定义的 Scheduler 类来决定。现在就来看看 Scheduler 类中和过滤重复 url 有关的内容。在 Scheduler 类中，在调度时，采用了 me...

Scrapy爬虫返回302重定向问题解决方法

sapphire_wei的博客

11-20

5360

爬取页面时302重定向导致response页面与实际需要爬取的页面信息不一致。解决方法：有些网站需要检查cookies头部信息，这样无需登录就能进行访问，所以可以在settings中添加头部信息cookies，即可正常进行爬取操作 DEFAULT_REQUEST_HEADERS = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; ...

scrapy请求的url遇到重定向怎么版

06-12

当Scrapy发出请求时，如果遇到重定向，Scrapy会自动处理重定向。默认情况下，Scrapy会遵循HTTP重定向，直到达到最终目标URL或达到最大重定向次数。如果您想在重定向时执行特定的操作，例如跟踪重定向链或修改请求...

精通Scrapy网络爬虫_python_scrapy_

09-29

6. **Downloader Middleware**：下载中间件是一系列钩子，可以修改Scrapy的下载过程，例如处理cookies、模拟浏览器行为或处理重定向。 7. **Spider Middleware**：蜘蛛中间件位于Spider和Scrapy引擎之间，可以对...

精通Scrapy网络爬虫_爬虫_scrapy_

10-04

Downloader中间件允许我们对下载过程进行拦截和修改，如添加用户代理、处理重定向等。 3. **Item Pipeline（项目管道）**：Item Pipeline负责处理Spider从网页中提取的数据。它是一个数据清洗和验证的流程，可以...

Scrapy解决URL被重定向无法抓取到数据问题301302

lk1521769532的博客

05-17

3432

在使用Scrapy框架中总是遇到这类问题，在此留下记录，方便查阅、三种解决方式：解决（一）在Request中将scrapy的dont_filter=True，因为scrapy是默认过滤掉重复的请求URL，添加上参数之后即使被重定向了也能请求到正常的数据了解决（二）在scrapy框架中的 settings.py文件里添加 HTTPERROR_ALLOWED_CODES = [301] 解决...

Scrapy中出现重定向301错误

weixin_45609519的博客

08-26

1266

Scrapy中出现重定向301错误 1.问题描述 [scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (301) 2.问题原因 301 Moved Permanently（永久重定向）被请求的资源已永久移动到新位置，并且将来任何对此资源的引用都应该使用本响应返回的若干个URI之一。如果可能，拥有链接编辑功能的客户端应当自动把请求的地址修改为从服务器反馈回来的地址。 3.解决方法使用浏览器正常登陆要爬取的网站，获取最新网址，并对爬虫

彻底搞懂Scrapy的中间件（二）

weixin_33923762的博客

11-20

356

在上一篇文章中介绍了下载器中间件的一些简单应用，现在再来通过案例说说如何使用下载器中间件集成Selenium、重试和处理请求异常。在中间件中集成Selenium 对于一些很麻烦的异步加载页面，手动寻找它的后台API代价可能太大。这种情况下可以使用Selenium和ChromeDriver或者Selenium和PhantomJS来实现渲染网页。这是前面的章节已经讲到的内容。那么，如何把Scrap...

Scrapy -- 解决302重定向

MarkAdc的博客

04-23

2075

代码 yield Request(url, meta={ 'dont_redirect': True, 'handle_httpstatus_list': [302] }, callback=self.parse)

Scrapy307重定向

吟游诗人——吟唱生命的不朽

12-22

1148

最近在用Scrapy写爬虫，但是爬取有的网站时会出现307重定向的错误，使得无法爬取到正确网站，这往往是因为原网站采用了反爬虫机制导致的。在StackOverFlow上有人提出了这个问题：scrapy 307 redirects to same page 这里的答案指出了307是Cookie的问题，它的建议是打开Cookie，并需要自己分析哪些是网站真正需要的用来鉴别是机器访问还是认为访问的数据...

scrapy——解决302重定向

aqew43446的博客

07-02

1001

在爬虫多次请求时，有些网站会出现反爬虫措施：将请求链接重定向到一个提示404的链接或者验证码链接等阻止爬虫的进行，如下为解决方案： def start_requests(self): for i in self.start_urls: yield Request(i, meta={ 'don...

scrapy 中爬取时被重定向_爬虫：scrapy框架介绍和使用

weixin_39782709的博客

12-19

396

所谓网络爬虫，其实是模拟浏览器发送http请求，获得服务器响应数据，进而进行数据的分析和持久化。我们的浏览器主要有四个功能，发生http请求，接收http响应，解析静态文件(html,css,img等)和js动态代码，进行要素的渲染。网络信息数量庞大，仅靠人力、浏览器不能有效的利用信息，爬虫相当于一种自动化获取信息的方法。显然，搜索引擎也是一种爬虫，它可以在复杂的网络链接中根据算法获取适合的url...