爬取JD格力空调的各种信息

本文介绍了如何使用爬虫获取京东上格力空调的全方位信息。重点在于找到并解析商品URL,通过base64解密处理。提供的代码示例展示了整个爬取过程,最终将数据保存为TXT文件,包含详尽的商品详情。
摘要由CSDN通过智能技术生成

又做了一回爬JD信息的爬虫,但是这次爬取的内容更多更全,其实写代码本身不难,主要费时间的就是找相关信息的url,详细代码如下:

防水处理了一下url,base64加密的,解密可用如下函数:

import base64


def dec(string):
    return base64.b64decode(string.encode()).decode()

完整代码如下:

import requests
import re
import time
import json
import os
import traceback
from lxml import etree
from collections import OrderedDict


def get_text(href):
    try:
        hds = {
   
            'Referer': 'https://item.jd.com/1361956.html',
            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '
                          'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'}
        resp = requests.get(href, headers=hds)
        resp.encoding = resp.apparent_encoding
        resp.raise_for_status()
        return resp.text
    except requests.RequestException:
        return ''


def uniform_url(text):
    if 'https' not in text:
        text = 'https:' + text
    return text


def get_urls(href):
    text = get_text(href)
    html = etree.HTML(text)
    url_list = html.xpath('//div[@id="J_goodsList"]/ul/li//div[3]/a/@href')
    url_list = map(uniform_url, url_list)
    return url_list


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值