scrapy爬虫（处理详情页、翻页、空字符串、保存json文件）

最新推荐文章于 2022-12-07 23:30:03 发布

忌颓废

最新推荐文章于 2022-12-07 23:30:03 发布

阅读量1.1k

点赞数 1

分类专栏： python爬虫文章标签：爬虫

本文链接：https://blog.csdn.net/weixin_44947339/article/details/104333803

版权

本文档介绍了使用Scrapy爬虫框架进行网页抓取的过程，包括在jump.py中处理详情页和翻页逻辑，item.py定义数据结构，pipelines.py中处理可能出现的空字符串，以及在settings.py中启用pipelines。最终，爬取的数据被保存为一个名为'烘培.json'的JSON文件。

摘要由CSDN通过智能技术生成

阅读目录

一、爬虫文件jump.py（处理详情页、翻页）

import scrapy
from Detail.items import DetailItem
class JumpSpider(scrapy.Spider):
    name = 'jump'
    allowed_domains = ['meishij.net']
    start_urls = ['https://www.meishij.net/hongpei/']

    page = 1    #第一页
    def parse(self, response):
        list = response.css('#listtyle1_list .listtyle1')
        for sel in list:
            item = DetailItem()
            item