scrapy处理重定向

用scrapy爬取网页时出现302状态码,这是网页发生了重定向(在此不解释重定向),如何解决这个问题,只需在settings文件中设置MEDIA_ALLOW_REDIRECTS = True。
我是在爬取文件时初始网页发生重定向无法正常下载,后来解决了这个问题,在下载的时候发生了文件保存错误,路径不对,如果任然使用scrapy自带的pipeline下载文件时一直报错。这时需要改写文件保存的路径就需要重写pipeline方法。

import os
from scrapy.pipelines.files import FilesPipeline
from .settings import FILES_STORE
class SpiderxiaoshuoPipeline(object):
    def process_item(self, item, spider):
        return item
class FilesnamePipeline(FilesPipeline):
    def file_path(self, request, response=None, info=None):
        file_store = FILES_STORE
        name = request.url.split('?')[-1]
        name1 = name.split('&')[2] + '.txt'
        filenmae = os.path.join(file_store,name1)
        return filenmae

这是我改写的Pipeline方法,将爬取的url的链接的Id作为保存文件的名字。

 'spiderxiaoshuo.pipelines.FilesnamePipeline': 1,

将settings文件中的pipiline设置为自己重写的pipeline
改写Pipeline方法是参考https://blog.csdn.net/qq_31235811/article/details/88917771

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值