数据治理 | 数据采集实战：动态网页数据采集

最新推荐文章于 2025-05-07 08:18:56 发布

企研数据

最新推荐文章于 2025-05-07 08:18:56 发布

阅读量802

点赞数

分类专栏：数据治理文章标签： python 数据库数据分析

本文链接：https://blog.csdn.net/weixin_55633225/article/details/129956269

版权

数据治理专栏收录该内容

33 篇文章

订阅专栏

查看原文：【数据seminar】数据治理 | 数据采集实战：动态网页数据采集

我们将在数据治理板块中推出一系列原创推文，帮助读者搭建一个完整的社科研究数据治理软硬件体系。该板块将涉及以下几个模块：

计算机基础知识

(1)社科研究软硬件体系搭建——虚拟化技术概述与实践

编程基础

(1)数据治理 | 带你学Python之环境搭建与基础数据类型介绍篇

(2)数据治理 | 带你学Python之控制结构与函数

(3)数据治理 | 带你学Python之面向对象编程基础

(4)数据治理 | 还在用Excel做数据分析呢？SQL它不香吗

(5)数据治理 | 普通社科人如何学习SQL？一篇文章给您说明白

(6)数据治理 | 如何实现SQL数据库的横向匹配

数据采集

(1)数据治理 | 快速get数据采集技能：理论知识篇

(2)数据治理 | 数据采集实战：静态网页数据采集

(3)本期内容：数据治理 | 数据采集实战：动态网页数据采集

数据存储

(1)安装篇数据治理 | 遇到海量数据stata卡死怎么办？这一数据处理利器要掌握

(2)管理篇数据治理 | 多人协同处理数据担心不安全？学会这一招，轻松管理你的数据团队

(3)数据导入数据治理 | “把大象装进冰箱的第二步”：海量微观数据如何“塞进”数据库？

(4) 数据治理｜Stata如何直连关系型数据库

数据清洗

数据实验室搭建

Part 1 引言

我们上一篇推文数据采集实战：静态网页数据采集中，已经讲解了静态网页的采集方法，本文我们介绍动态网页采集的方法。

本文采集的示例网站为：https://www.xfz.cn/，我们的目标是将网页中指定的文本信息采集下来并保存。

Part 2 什么是动态网页

通常情况下，我们要提取的数据并不在我们下载到的HTML源代码中。举个例子，我们在刷QQ空间或者微博评论的时候，一直往下刷，网页在不刷新的情况下会越来越长，内容也越来越多。

具体而言，当在我们浏览网站的时候，更具用户的实际操作（如鼠标滚轮下滑加载内容），不断的向服务器发起请求，并将请求回来的数据利用JavaScript技术，将新的内容添加到网页中。以百度图片为例子：https://image.baidu.com/ ，我们进入百度图片之后，搜索我们想要查找的图片进行搜索，随后不断地下滑页面，我们会看到网页中不断有图片加载出来，但是网页并没有刷新，这就动态加载页面。

Part 3 手动采集的操作步骤

本文采集的示例网站为：https://www.xfz.cn/ ，内容如下图所示：

假设我们需要采集的内容有：文章的标题、关键词、发布日期和详情链接这4部分内容，对于标题、关键词、发布日期这3个信息我们在列表页中就可以看到。对于详情链接，我们还需要在网站上点击指定详情页之后，才能采集，如下图：

假设我们想要采集的内容有很多，光靠手动采集的操作会浪费大量的时间，所以我们可以利用Python自动化采集数据。

Part 4 自动采集的操作步骤

（一）分析动态加载的页面

在不刷新网页的情况下，该网站是需要点击网页末尾的 <查看更多> 按钮，才会加载新的数据，如下图所示：

我们打开开发者工具（谷歌浏览器按F12），点击过滤器XHR，然后多次点击网页最下方 <查看更多> 按钮进行内容的加载，我们可以看到，每次点击按钮之后，就能抓到一个包，我们查看抓包的信息，就能发现，该请求返回的响应内容里面就有我们想要的数据，实际的操作如下图：

网页中显示的内容：

所以我们可以直接请求该接口来获取我们想要的数据，我们先将这三个不同请求的URL提取出来，如下所示：

第2页：https://www.xfz.cn/api/website/articles/?p=2&n=20&type=
第3页：https://www.xfz.cn/api/website/articles/?p=3&n=20&type=
第4页：https://www.xfz.cn/api/website/articles/?p=4&n=20&type=

Tip： https://www.xfz.cn/api/website/articles/?p=2&n=20&type=，该URL是GET请求带参数的情况，域名和参数之间用 ? 隔开，每个参数之间用 & 间隔。

我们观察每一页的URL参数的变化，发现在三个参数里面 p 为变化的参数，每点击一次， p 就自增1，所以 p 参数跟翻页有关，我们可以通过修改p参数，来访问不同页面的信息内容，我们也可以推断出，当p参数的值为1的时候，就是请求网站第1页的内容。

（二）代码实现

1. 请求页面并解析数据

import requests
import time

for page in range(1, 6):  # 获取5页数据
    # 利用format构造URL
    url = 'https://www.xfz.cn/api/website/articles/?p={}&n=20&type='.format(page)
    # 发送请求获取响应
    res = requests.get(url=url)
    # 将响应的json格式字符串,解析成为Python字典格式
    info_dic = res.json()
    # 提取我们想要的数据,并格式化输出
    for info in info_dic['data']:
        result = {
            'title': info['title'],
            'date': info['time'],
            'keywords': '-'.join(info['keywords']),
            'href': 'https://www.xfz.cn/post/' + str(info['uid']) + '.html'
        }
        print(result)
    time.sleep(1)  # 控制访问频率

执行结果（部分）：

{'title': '「分贝通」完成C+轮1.4亿美元融资', 'date': '2022-02-17 10:17:13', 'keywords': '分贝通-DST Global', 'href': 'https://www.xfz.cn/post/10415.html'}
{'title': '「塬数科技」完成近亿元A轮融资，凡卓资本担任独家财务顾问', 'date': '2022-02-15 10:17:42', 'keywords': '塬数科技-凡卓资本-晨山资本-博将资本', 'href': 'https://www.xfz.cn/post/10412.html'}
{'title': '「BUD」获1500万美元A+轮融资', 'date': '2022-02-14 10:15:35', 'keywords': '启明创投-源码资本-GGV纪源资本-云九资本', 'href': 'https://www.xfz.cn/post/10411.html'}
{'title': '以图计算引擎切入千亿级数据分析市场，它要让人人成为分析师，能否造就国内百亿级黑马', 'date': '2022-02-10 11:04:52', 'keywords': '欧拉认知智能-新一代BI', 'href': 'https://www.xfz.cn/post/10410.html'}
{'title': '前有Rivian市值千亿，后有经纬、博原频频押注，滑板底盘赛道将诞生新巨头？丨什么值得投', 'date': '2022-02-09 11:51:36', 'keywords': '什么值得投', 'href': 'https://www.xfz.cn/post/10409.html'}

2. 保存到本地csv

我们在原先的代码基础上，添加一点内容，将我们爬取下来的内容保存到CSV文件中，保存到CSV文件的方法有许多种，这边采用 pandas 第三方模块来实现，需要 pip install pandas 进行安装。

import requests
import time
import pandas as pd  # 导入模块

# 创建一个数据集,用来保存数据
data_set = [
    ('标题', '日期', '关键词', '详情链接'),  # 这边先定义头部内容
]
for page in range(1, 6):  # 获取5页数据
    # 利用format构造URL
    url = 'https://www.xfz.cn/api/website/articles/?p={}&n=20&type='.format(page)
    # 发送请求获取响应
    res = requests.get(url=url)
    # 将响应的json格式字符串,解析成为Python字典格式
    info_dic = res.json()
    # 提取我们想要的数据,并格式化输出
    for info in info_dic['data']:
        result = {
            'title': info['title'],
            'date': info['time'],
            'keywords': '/'.join(info['keywords']),  # 关键词会含有多个,每个关键词用斜杠隔开
            'href': 'https://www.xfz.cn/post/' + str(info['uid']) + '.html'  # 构造详情页url
        }
        # 获取字典里面的值,并转换成列表
        info_list = list(result.values())
        # 添加到数据集
        data_set.append(info_list)
    time.sleep(1)  # 控制访问频率

# 保存成为csv文件
df = pd.DataFrame(data_set)
df.to_csv('xfz.csv', mode='a', encoding='utf-8-sig', header=False, index=False)

执行结果（部分）：

Part 5 总结

文本讲述了动态网站数据采集基本流程与方法，结合我们上一期讲的静态网页数据的采集实战，相信大家已经掌握了数据采集的基本技能。那么数据采集回来如何处理呢？敬请期待下期推文：Python数据处理基本方法。

附件：get_web_data.py

import requests
import time
import pandas as pd  # 导入模块

# 创建一个数据集,用来保存数据
data_set = [
    ('标题', '日期', '关键词', '详情链接'),  # 这边先定义头部内容
]
for page in range(1, 6):  # 获取5页数据
    # 利用format构造URL
    url = 'https://www.xfz.cn/api/website/articles/?p={}&n=20&type='.format(page)
    # 发送请求获取响应
    res = requests.get(url=url)
    # 将响应的json格式字符串,解析成为Python字典格式
    info_dic = res.json()
    # 提取我们想要的数据,并格式化输出
    for info in info_dic['data']:
        result = {
            'title': info['title'],
            'date': info['time'],
            'keywords': '/'.join(info['keywords']),  # 关键词会含有多个,每个关键词用斜杠隔开
            'href': 'https://www.xfz.cn/post/' + str(info['uid']) + '.html'  # 构造详情页url
        }
        # 获取字典里面的值,并转换成列表
        info_list = list(result.values())
        # 添加到数据集
        data_set.append(info_list)
    time.sleep(1)  # 控制访问频率

# 保存成为csv文件
df = pd.DataFrame(data_set)
df.to_csv('xfz.csv', mode='a', encoding='utf-8-sig', header=False, index=False)