# 这是一个帮助我们获取历年(2010-2023)大学生毕业人数的爬虫
import pandas
url = "https://www.dxsbb.com/news/143353.html"
content = pandas.read_html(url)[-1]
content.to_excel("2010-2023大学生毕业人数.xlsx")
print(content)
.xlsx
- 定义:
.xlsx
是 Microsoft Excel 2007 及更高版本中使用的默认文件格式。 - 特点:
- 无宏:
.xlsx
文件不包含宏(VBA 代码)。如果你只需要存储数据和公式,而不需要宏,那么.xlsx
是最合适的选择。 - 兼容性:这种格式与大多数现代版本的 Excel 兼容,也可以被许多其他电子表格软件(如 Google Sheets、LibreOffice Calc 等)读取和编辑。
- 文件大小:
.xlsx
文件通常比包含宏的.xlsm
文件小,因为它们不包含额外的 VBA 代码。 - 安全性:由于不包含宏,
.xlsx
文件在安全性方面更为可靠,不会因为宏代码而带来潜在的安全风险。
- 无宏:
.xlsm
- 定义:
.xlsm
是 Microsoft Excel 2007 及更高版本中用于包含宏(VBA 代码)的文件格式。 - 特点:
- 含宏:
.xlsm
文件包含宏(VBA 代码)。如果你需要在 Excel 中使用自动化任务或复杂的脚本,那么.xlsm
是必需的。 - 兼容性:这种格式与大多数现代版本的 Excel 兼容,但其他电子表格软件可能无法完全支持宏功能。
- 文件大小:由于包含宏代码,
.xlsm
文件通常比.xlsx
文件大。 - 安全性:
.xlsm
文件可能存在安全风险,因为宏代码可能包含恶意代码。因此,打开.xlsm
文件时,Excel 会提示用户启用或禁用宏。
- 含宏:
总结
- .xlsx:适用于不需要宏的普通数据存储和分析。
-
.xlsm:适用于需要使用宏(VBA 代码)进行自动化任务的复杂工作表
pip install pandas -i https://pypi.mirrors.ustc.edu.cn/simple/
安装pandas库,在运行时注意保存的格式