Scrapy 爬取京东所有图书信息

本文介绍如何利用Scrapy框架爬取京东网站上的所有图书信息,并将爬取结果存储到Redis数据库中,以实现数据的高效管理和后续分析。
摘要由CSDN通过智能技术生成

先记录代码吧,回头再写文字:

# -*- coding: utf-8 -*-
import scrapy
import json
import pprint
from copy import deepcopy


class JdSpider(scrapy.Spider):
    name = 'jd'
    allowed_domains = ['jd.com', 'p.3.cn']
    # 这是由于后期使用有使用json解析,使用的域名为p.3.cn
    start_urls = ['https://book.jd.com/booksort.html']

    def parse(self, response):
        dt_list = response.xpath('//div[@class="mc"]/dl/dt')  # 获取大分类列表
        for dt in dt_list:
            item = dict() # 创建字典,存储相关信息
            item['b_cate'] = dt.xpath('./a/text()').extract_first() # 大分类标题
            em_list = dt.xpath('./following-sibling::dd[1]/em') # 获取小分类列表位置
            for em in em_list:  # 小分类列表
                item["s_href"] = em.xpath('./a/@href').extract_first()
                item['s_cate'] = em.xpath('./a/text()').extract_first
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值