把信息保存在html文件中的代码

最新推荐文章于 2023-07-25 20:48:45 发布

kimiYangfly

最新推荐文章于 2023-07-25 20:48:45 发布

阅读量1k

点赞数

分类专栏： python爬虫

本文链接：https://blog.csdn.net/ykm18811712927/article/details/72784244

版权

python爬虫专栏收录该内容

23 篇文章 0 订阅

订阅专栏

本文介绍了一个Python Scrapy爬虫示例，该爬虫从'www.zuihaodaxue.cn'网站抓取页面内容，并将抓取到的HTML数据保存到本地文件中，文件名与URL末尾部分相同。

摘要由CSDN通过智能技术生成

# -*- coding: utf-8 -*-
import scrapy


class CrawlSpider(scrapy.Spider):
    name = 'crawl'
    allowed_domains = ['www.zuihaodaxue.cn']
    start_urls = ['http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html']

    def parse(self, response):
        #保存在html文件中固定代码
        fname = response.url.split('/')[-1]
        with open(fname, 'wb') as f:
            f.write(response.body)
        self.log("save file %s." % fname)
        pass