获取历年(2010-2023)大学生毕业人数的爬虫

# 这是一个帮助我们获取历年(2010-2023)大学生毕业人数的爬虫
import pandas

url = "https://www.dxsbb.com/news/143353.html"
content = pandas.read_html(url)[-1]
content.to_excel("2010-2023大学生毕业人数.xlsx")
print(content)

.xlsx

  • 定义.xlsx 是 Microsoft Excel 2007 及更高版本中使用的默认文件格式。
  • 特点
    • 无宏.xlsx 文件不包含宏(VBA 代码)。如果你只需要存储数据和公式,而不需要宏,那么 .xlsx 是最合适的选择。
    • 兼容性:这种格式与大多数现代版本的 Excel 兼容,也可以被许多其他电子表格软件(如 Google Sheets、LibreOffice Calc 等)读取和编辑。
    • 文件大小.xlsx 文件通常比包含宏的 .xlsm 文件小,因为它们不包含额外的 VBA 代码。
    • 安全性:由于不包含宏,.xlsx 文件在安全性方面更为可靠,不会因为宏代码而带来潜在的安全风险。

.xlsm

  • 定义.xlsm 是 Microsoft Excel 2007 及更高版本中用于包含宏(VBA 代码)的文件格式。
  • 特点
    • 含宏.xlsm 文件包含宏(VBA 代码)。如果你需要在 Excel 中使用自动化任务或复杂的脚本,那么 .xlsm 是必需的。
    • 兼容性:这种格式与大多数现代版本的 Excel 兼容,但其他电子表格软件可能无法完全支持宏功能。
    • 文件大小:由于包含宏代码,.xlsm 文件通常比 .xlsx 文件大。
    • 安全性.xlsm 文件可能存在安全风险,因为宏代码可能包含恶意代码。因此,打开 .xlsm 文件时,Excel 会提示用户启用或禁用宏。

总结

  • .xlsx:适用于不需要宏的普通数据存储和分析。
  • .xlsm:适用于需要使用宏(VBA 代码)进行自动化任务的复杂工作表

pip install pandas -i https://pypi.mirrors.ustc.edu.cn/simple/

 安装pandas库,在运行时注意保存的格式 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值