scrapy爬虫下载文件、重命名文件

最新推荐文章于 2024-09-30 14:42:32 发布

ymd8005

最新推荐文章于 2024-09-30 14:42:32 发布

阅读量7.1k

点赞数 2

分类专栏： python爬虫文章标签： scrapy scrapy下载文件 scrapy重命名文件 python下载文件 python爬虫

本文链接：https://blog.csdn.net/ymd8005/article/details/79224377

版权

本文介绍如何使用Scrapy爬虫从http://www.zimuku.cn/下载字幕文件，并进行重命名。内容包括Scrapy的文件下载中间件的运用，以及Python下载和重命名文件的方法。同时，提及下载图片的类似处理方式，提供相关代码示例和官方文档链接。

摘要由CSDN通过智能技术生成

scrapy下载文件并重命名文件，python下载文件并重命名文件

目标：下载网页 http://www.zimuku.cn/search?q=&t=onlyst&p=1 上的字幕文件

设计：涉及scrapy的文件下载中间件

扩展：下载图片也是同样的原理

代码：如下

(1)爬虫模块

# coding:utf-8

import sys
import urllib
import os
reload(sys)
sys.setdefaultencoding( "utf-8" )

import scrapy
from w3lib.html import remove_tags
from subtitle_crawler.items import SubCrawlerItem

class SubSpider(scrapy.Spider):
    name = "sub"
    allowed_domains = []
    start_urls = [
            "http://www.zimuku.cn/search?q=&t=onlyst&p=%s" %i for i in range(1,21)
    ]