# -*- coding: utf-8 -*- import scrapy class CrawlSpider(scrapy.Spider): name = 'crawl' allowed_domains = ['www.zuihaodaxue.cn'] start_urls = ['http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html'] def parse(self, response): #保存在html文件中固定代码 fname = response.url.split('/')[-1] with open(fname, 'wb') as f: f.write(response.body) self.log("save file %s." % fname) pass
把信息保存在html文件中的代码
最新推荐文章于 2023-07-25 20:48:45 发布
本文介绍了一个Python Scrapy爬虫示例,该爬虫从'www.zuihaodaxue.cn'网站抓取页面内容,并将抓取到的HTML数据保存到本地文件中,文件名与URL末尾部分相同。
摘要由CSDN通过智能技术生成