Scrapy 实战：爬取微博热搜数据（实时热点追踪系统搭建）

yansideyucsdn

于 2025-05-22 18:21:09 发布

阅读量838

点赞数 19

分类专栏： python爬虫实战文章标签： scrapy 开发语言 python 爬虫

本文链接：https://blog.csdn.net/yansideyucsdn/article/details/148146898

版权

python爬虫实战专栏收录该内容

43 篇文章

订阅专栏

摘要：在信息爆炸的时代，实时掌握网络热点对于个人和企业都具有重要意义。微博作为国内领先的社交媒体平台，其热搜榜反映了当下最受关注的话题。本文将详细讲解如何使用 Scrapy 框架搭建一个微博热搜数据爬取系统，并实现实时热点追踪功能，从项目创建、数据解析到存储与展示，全方位剖析爬虫开发流程，助力读者快速掌握网络爬虫技术。

一、引言

微博热搜榜是网络舆论的风向标，无数个人用户、品牌方和媒体都渴望及时了解热搜动态，以把握舆情热点、制定营销策略或紧跟社会脉搏。然而，手动刷新微博热搜页面显然效率低下且难以满足实时追踪的需求。由此，利用 Python 的 Scrapy 框架构建一个自动化的微博热搜爬虫系统成为一种高效解决方案。

二、微博热搜页面分析

（一）目标页面定位

微博热搜数据主要展示在微博官网的热搜榜页面（https://s.weibo.com/top/summary）。该页面以列表形式排列了当前热门话题，包含话题名称、热度值、讨论量等关键信息。

（二）页面结构分析

使用浏览器开发者工具（F12）查看微博热搜页面的 HTML 结构，发现热搜话题被封装在 <div> 标签中，每个话题项的样式类名通常具有规律性，例如话题名称位于特定的 <a> 标签内，热度值则被存储在具有特定类名的 <span> 标签中。

# 示例：分析出的 HTML 结构片段
<div class="td-03">
    <a href="/some_topic_link">话题名称</a>
</div>
<div class="td-05">
    <span class="hot-img"></span>
    <span class="star">热度值</span>
</div>

三、Scrapy 项目创建与配置

（一）环境准备

确保 Python 已安装，接着安装 Scrapy 框架：

pip install scrapy

（二）项目初始化

打开终端，创建新的 Scrapy 项目：

scrapy startproject weibo_hotsearch

进入项目目录并创建爬虫：

cd weibo_hotsearch
scrapy genspider hotsearch_spider s.weibo.com

（三）项目结构解析

Scrapy 自动生成的项目文件夹结构如下：

weibo_hotsearch/：项目根目录。
spiders/：存放爬虫文件。
items.py：定义数据模型。
middlewares.py：配置中间件。
settings.py：设置项目参数。

四、爬虫开发与数据解析

（一）定义数据模型（`items.py`）

# items.py
import scrapy

class WeiboHotsearchItem(scrapy.Item):
    # 定义微博热搜数据字段
    topic_name = scrapy.Field()  # 话题名称
    heat_value = scrapy.Field()  # 热度值
    discussion_count = scrapy.Field()  # 讨论量
    crawl_time = scrapy.Field()  # 爬取时间

（二）爬虫逻辑编写（`spiders/hotsearch_spider.py`）

# spiders/hotsearch_spider.py
import scrapy
from weibo_hotsearch.items import WeiboHotsearchItem
from scrapy.loader import ItemLoader
from datetime import datetime

class HotsearchSpider(scrapy.Spider):
    name = "hotsearch_spider"
    allowed_domains = ["s.weibo.com"]
    start_urls = ["https://s.weibo.com/top/summary"]

    def parse(self, response):
        # 使用 ItemLoader 提取和加载数据
        selectors = response.css("div.table")  # 找到热搜列表的父容器
        for topic_selector in selectors.css("tr"):  # 遍历每一个话题行
            loader = ItemLoader(item=WeiboHotsearchItem(), selector=topic_selector)
            loader.add_css("topic_name", "td:nth-child(1) > a::text")  # 提取话题名称
            loader.add_css("heat_value", "td:nth-child(2) > div::text")  # 提取热度值
            loader.add_value("discussion_count", 0)  # 暂时填充默认讨论量
            loader.add_value("crawl_time", datetime.now().strftime("%Y-%m-%d %H:%M:%S"))  # 记录爬取时间
            yield loader.load_item()

（三）代码说明

在 parse 方法中，我们利用 CSS 选择器精准定位到各个热搜数据字段。response.css 方法将 HTML 内容解析为选择器对象，方便后续内容提取。
ItemLoader 是 Scrapy 提供的强大工具，它将提取的数据逐步填充到之前定义的 WeiboHotsearchItem 数据模型中，保证数据的结构化和规范性。

五、数据存储与管理

（一）启用数据管道

激活数据管道功能，在 settings.py 文件中添加如下配置：

# settings.py
ITEM_PIPELINES = {
    "weibo_hotsearch.pipelines.WeiboHotsearchPipeline": 300,
}

（二）数据管道逻辑实现（`pipelines.py`）

# pipelines.py
import json
import os
from datetime import datetime

class WeiboHotsearchPipeline:
    def open_spider(self, spider):
        # 爬虫启动时创建文件
        current_time = datetime.now().strftime("%Y%m%d%H%M%S")
        self.file = open(f"hotsearch_data_{current_time}.json", "w", encoding="utf-8")

    def process_item(self, item, spider):
        # 将 Item 转换为 JSON 格式并写入文件
        line = json.dumps(dict(item), ensure_ascii=False) + "\n"
        self.file.write(line)
        return item

    def close_spider(self, spider):
        # 爬虫结束时关闭文件
        self.file.close()

六、实时热点追踪系统设计

（一）系统架构概述

微博热搜爬虫系统由数据采集层、数据处理层和数据展现层构成。采集层负责定期抓取微博热搜数据，处理层对数据进行清洗、去重和分析，展现层则通过可视化界面实时呈现热点趋势。

（二）定时任务设置

使用 Linux 的 cron 或 Windows 的任务计划程序，每 10 分钟触发一次爬虫脚本，确保数据的实时性。

（三）可视化展示

借助 Flask 或 Django 开发简单的 Web 后台，将存储的 JSON 数据读取并以图表形式展示。可使用 ECharts 或 Plotly.js 等库绘制热度趋势图。

# 示例：Flask 简单路由代码片段
from flask import Flask, render_template
import json
import glob

app = Flask(__name__)

@app.route("/")
def show_hotsearch_trend():
    # 找到最新的 JSON 文件
    list_of_files = glob.glob("hotsearch_data_*.json")
    latest_file = max(list_of_files, key=os.path.getctime)
    
    # 读取并传递数据到前端
    with open(latest_file, "r", encoding="utf-8") as f:
        data = f.readlines()
    return render_template("hotsearch_trend.html", data=data)

if __name__ == "__main__":
    app.run(debug=True)

七、应对反爬虫机制

微博对频繁请求的 IP 可能会进行限制，以下是一些应对策略：

（一）设置请求延迟

在 settings.py 中调整下载延迟：

# settings.py
DOWNLOAD_DELAY = 5  # 设置下载延迟为 5 秒

（二）使用代理 IP

安装并配置 Scrapy - Proxy 中间件，随机切换代理 IP 地址。

（三）模拟浏览器请求头

在爬虫代码中添加自定义请求头：

# 在爬虫代码中
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36",
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
    "Accept-Language": "zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3",
}

def start_requests(self):
    for url in self.start_urls:
        yield scrapy.Request(url, headers=self.headers)

八、测试与优化

（一）单元测试

针对数据解析部分编写测试用例，确保即使微博页面结构发生小范围变化，也能及时发现并修复问题。

# 示例：使用 pytest 编写测试用例
import pytest
from weibo_hotsearch.spiders.hotsearch_spider import HotsearchSpider

@pytest.fixture
def spider():
    return HotsearchSpider()

def test_data_parsing(spider):
    # 模拟 HTML 内容
    html_content = """
    <div class="table">
        <tr>
            <td class="td-03"><a href="/topic?q=TestTopic">测试话题</a></td>
            <td class="td-05"><div>100000</div></td>
        </tr>
    </div>
    """
    # 测试数据提取逻辑...
    # （具体实现根据实际情况编写）