Python 爬虫实战：京东商品数据采集（登录态验证 + 价格监控系统）

yansideyucsdn

于 2025-06-05 23:30:41 发布

阅读量427

点赞数 17

分类专栏： python爬虫实战文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/yansideyucsdn/article/details/148460979

版权

python爬虫实战专栏收录该内容

105 篇文章

订阅专栏

一、引言

在电商飞速发展的当下，京东作为国内头部电商平台之一，拥有海量商品数据。对于商家而言，精准掌握这些数据能助力优化定价策略、洞察市场动态；对消费者来说，追踪商品价格走势有助于把握最佳购买时机。本文将深入剖析如何借助 Python 爬虫技术实现京东商品数据采集，包括突破登录态验证以及搭建价格监控系统，为读者呈上一份实用的电商数据挖掘指南。

二、环境搭建

安装 Python 库：执行以下命令安装所需的库：

pip install requests pandas numpy beautifulsoup4 matplotlib selenium

浏览器驱动配置：下载与本地浏览器版本相匹配的 Selenium WebDriver，并将其路径添加至系统环境变量，以便 Selenium 能顺利调用浏览器。

三、京东登录与数据抓取

（一）京东登录流程剖析

京东登录流程涉及多个环节：首先，用户需在登录页面输入账号密码；随后，系统会要求完成滑块验证码验证；验证通过后，京东会颁发一个用于标识用户登录状态的 Cookie。

（二）模拟登录与突破登录态验证

启动浏览器并访问登录页面：使用 Selenium 启动浏览器，模拟真实用户登录行为。

from selenium import webdriver

driver = webdriver.Chrome()
driver.get("https://passport.jd.com/new/helloService.html")

输入用户名与密码：定位用户名与密码输入框，模拟键盘输入。

username_input = driver.find_element("name", "loginname")
password_input = driver.find_element("name", "nloginpwd")
username_input.send_keys("your_username")
password_input.send_keys("your_password")

滑块验证码破解：截取验证码图片，运用图像处理技术计算缺口位置，进而模拟拖动操作。

from time import sleep
from selenium.webdriver import ActionChains

# 截图保存验证码图片
driver.save_screenshot('captcha.png')

# 定位滑块元素并拖动
slider = driver.find_element("class name", "JDJRV-slide-button")
action = ActionChains(driver)
action.click_and_hold(slider).perform()
action.move_by_offset(x_offset=calculated_gap, y_offset=0).perform()  # calculated_gap 为计算出的缺口位置
action.release().perform()
sleep(2)  # 等待验证结果

获取登录态 Cookie：登录成功后，京东会将登录态信息存储在 Cookie 中，爬虫需提取该 Cookie，以便后续请求能携带登录态验证信息。

jd_cookies = driver.get_cookies()
driver.quit()  # 关闭浏览器

# 将 Cookie 转换为字典形式，便于 requests 使用
cookies_dict = {}
for cookie in jd_cookies:
    cookies_dict[cookie["name"]] = cookie["value"]

（三）商品数据抓取

发送请求获取商品列表：利用 requests 库，携带获取到的登录态 Cookie，向京东商品搜索接口发送请求。

import requests

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
    'Referer': 'https://www.jd.com'
}

response = requests.get("https://search.jd.com/Search", headers=headers, params={"keyword": "笔记本电脑"}, cookies=cookies_dict)

解析 HTML 获取商品信息：借助 BeautifulSoup 解析返回的 HTML 内容，提取商品的关键信息，如名称、价格、链接等。

from bs4 import BeautifulSoup

soup = BeautifulSoup(response.text, 'html.parser')
items = soup.find_all('li', class_='gl-item')

for item in items:
    sku = item.get('data-sku')
    name = item.find('div', class_='p-name').a.em.text.strip()
    price = item.find('div', class_='p-price').strong.i.text.strip()
    link = "https://item.jd.com/" + sku + ".html"
    # 将商品信息存储至列表或直接写入文件

四、价格监控系统搭建

（一）定时任务设置

运用定时任务库（如 APScheduler）设定周期性任务，每隔固定时间间隔重复执行商品价格抓取流程。

from apscheduler.schedulers.blocking import BlockingScheduler

scheduler = BlockingScheduler()

@scheduler.scheduled_job('interval', hours=1)  # 每小时执行一次
def scheduled_job():
    # 在此处调用商品价格抓取函数
    crawl_jd_prices()

scheduler.start()

（二）价格变化分析与通知

对比价格波动：将最新抓取的价格数据与历史数据进行比对，判断价格是否发生变动。

import pandas as pd

def compare_prices(new_prices):
    # 假设 historical_prices 为存储历史价格数据的 DataFrame
    merged_data = pd.merge(historical_prices, new_prices, on='商品名称', suffixes=('_old', '_new'))
    price_changes = merged_data[merged_data['价格_old'] != merged_data['价格_new']]
    return price_changes

发送通知提醒：当检测到价格变化时，通过邮件、短信或即时通讯工具向用户发送提醒。

import smtplib
from email.mime.text import MIMEText

def send_email(subject, body, to_email):
    msg = MIMEText(body)
    msg['Subject'] = subject
    msg['From'] = "your_email@example.com"
    msg['To'] = to_email

    with smtplib.SMTP("smtp.example.com") as server:
        server.login("your_email@example.com", "password")
        server.sendmail("your_email@example.com", to_email, msg.as_string())

五、数据存储与分析

（一）数据存储方案

选用合适的数据库（如 MySQL、MongoDB）或直接存储至 CSV/Excel 文件，确保采集到的商品数据得以妥善保存，以供后续分析使用。

# 示例：使用 pandas 将数据存储至 CSV 文件
new_prices.to_csv("jd_prices.csv", index=False, mode='a', header=not os.path.exists("jd_prices.csv"), encoding='utf-8-sig')

（二）数据分析洞察

运用数据分析库（如 Pandas、NumPy）对存储的数据展开分析，挖掘价格波动规律、热门商品趋势等有价值的信息。

# 示例：计算商品价格的平均值、最大值、最小值等统计指标
price_stats = new_prices['价格'].agg(['mean', 'max', 'min'])

六、总结

在本次实战中，我们成功攻克了京东商品数据采集过程中的登录态验证难题，并搭建起一套行之有效的价格监控系统。通过定时抓取商品价格数据并进行分析，能够为商家的定价决策提供有力支撑，同时也能帮助消费者精准捕捉商品价格的最优购买时机。希望本篇文章能为读者在电商数据挖掘领域提供有益的参考与借鉴。在后续的数据采集工作中，我们还需密切关注京东反爬虫策略的更新动态，持续优化爬虫技术，确保数据采集的稳定性和可持续性。
python爬虫实战