# 这是一个帮助我们获取历年(2010-2024)大学生毕业人数的爬虫
import pandas as pd
# 常量定义
BASE_URL = "https://www.dxsbb.com/news/143353.html"
OUTPUT_FILE = "2010-2024大学生毕业人数.xlsl"
def fetch_data(url):
"""
从指定 URL 获取数据
:param url: 数据源 URL
:return: 包含数据的 DataFrame
"""
try:
# 读取 HTML 表格,指定最后一个表格
res = pd.read_html(url)[-1]
return res
except Exception as e:
print(f"Error fetching data from {url}: {e}")
return None
def save_data(data, file_path):
"""
将数据保存到 CSV 文件
:param data: 包含数据的 DataFrame
:param file_path: 输出文件路径
"""
if data is not None:
try:
data.to_csv(file_path, index=False)
print(f"Data saved to {file_path}")
except Exception as e:
print(f"Error saving data to {file_path}: {e}")
else:
print("No data to save")
def main():
"""
主函数,负责调用数据获取和保存函数
"""
data = fetch_data(BASE_URL)
save_data(data, OUTPUT_FILE)
if __name__ == "__main__":
main()
这是一个帮助我们获取历年(2010-2024)大学生毕业人数的爬虫
于 2024-10-30 00:08:24 首次发布