使用 pandas 、openpyxl的python库来读取excel数据
ps:对于python读取excel数据简单的操作excel可以,但是项目中使用及数据处理的时候,建议使用csv,excel是带有单元格格式及其他属性的,而且excel还有版本问题,csv是存文本格式方便处理,没有版本格式问题
一、使用 pandas 库
pandas 是一个强大的数据处理库,提供了方便的函数来读取 Excel 文件。
官方文档:https://pandas.pydata.org/docs/user_guide/io.html#io-excel
- 主要用于数据处理和分析。可以高效地处理大型数据集,进行数据清洗、转换、聚合、切片等操作。
- 支持多种数据格式的读取和写入,包括 CSV、Excel、SQL 数据库等。对于 Excel 文件,它可以读取特定的工作表、指定索引列和列名等。
- 提供了丰富的数据结构,如 Series 和 DataFrame,便于进行数据分析和操作。可以进行复杂的数据分析任务,如统计分析、数据透视表、时间序列分析等。
适用场景
- 数据科学项目、数据分析任务、大规模数据处理。当需要对来自多个数据源的数据进行整合、分析和处理时,pandas 是一个很好的选择。
- 与其他数据分析和可视化工具集成,如 Matplotlib、Seaborn 等,进行数据可视化。
简单的读取示例:
import pandas as pd
# 读取单个工作表
df = pd.read_excel('excel_file.xlsx')
# 读取指定工作表
df = pd.read_excel('excel_file.xlsx', sheet_name='Sheet1')
# 可以指定行索引、列索引等参数
df = pd.read_excel('excel_file.xlsx', index_col=0, header=0)
二、使用 openpyxl 库
openpyxl 主要用于操作 Excel 2010 xlsx/xlsm/xltx/xltm 文件。
官方文档:https://openpyxl-chinese-docs.readthedocs.io/zh-cn/latest/tutorial.html
- 专注于 Excel 文件的操作。可以创建、修改、读取 Excel 文件的内容和格式。
- 能够对 Excel 工作表进行详细的格式设置,如字体、颜色、边框、单元格合并等。可以设置单元格的公式、图表等元素。
- 适用于需要对 Excel 文件进行精细控制和格式设置的场景,比如生成特定格式的报表。
适用场景:
- 生成复杂格式的 Excel 报表、对现有 Excel 文件进行格式调整和修改。如果需要创建具有特定格式要求的 Excel 文件,或者对 Excel 文件的外观进行精细控制,openpyxl 更合适。
- 在一些需要与 Excel 用户进行交互的场景下,比如生成用户可以直接编辑的 Excel 模板,openpyxl 可以提供更多的灵活性。
简单的读取示例:
from openpyxl import load_workbook
wb = load_workbook('excel_file.xlsx')
sheet = wb['Sheet1']
data = []
for row in sheet.iter_rows(values_only=True):
data.append(row)