Python 批量处理大学校运会报名 Excel 表格，多表整合、数据汇总及统计实例

最新推荐文章于 2024-09-18 11:30:55 发布

YouMi Chou

最新推荐文章于 2024-09-18 11:30:55 发布

阅读量5.4k

点赞数 13

分类专栏： Python与Office 文章标签： python excel xlwt xlrd

本文链接：https://blog.csdn.net/zhouz92/article/details/106962126

版权

这篇博客介绍了如何使用Python的xlrd和xlwt库来批量处理大学校运会的Excel报名表格，实现多表整合、数据汇总和统计。通过读取每个班级的报名表，将信息汇总到一张Excel表格中，并按运动项目统计报名信息。文章提供了一种数据结构和代码实现，展示了如何高效地完成这项任务。

摘要由CSDN通过智能技术生成

Python 与 Excel 表格综合实例：处理校运会报名 Excel 表格，多表整合、数据汇总及统计实例

- 【Python与Office】专栏

前言：

上一篇博客，介绍了一个简单的实例：给已有Excel表格添加序号、增加新列，主要是介绍 xlrd 与 xlwt 两个模块是如何在一起工作的。

这一篇我们来介绍另外一个实例，相对来说会复杂与贴近日常工作一点。

需求：

假设：需完成一份报名工作，将已做好报名表下发到各个报名单位。他们按格式填好报名表、上交，最后由你负责信息汇总和统计。

这样一份任务其实比较简单、常见，但当报名单位众多，如有几千份报名表需要统计时，个人操作起来还是很费时费力的，也可能会出现信息统计错误的情况。

模拟的具体案例：完成校运会报名表汇总、统计工作。

假设每个班级按校运会报名表填写了该班级的学生报名信息，需要你汇总、统计成一张Excel表格。

Excel表格 汇总信息 sheet 里包含所有学生的报名信息，其他sheet表 是每个校运会运动项目学生的报名信息表。

单个的报名表截图如下：

在这里插入图片描述
作为试验，我们做了五个Excel表格，放在了项目文件下的 tables 文件夹：

在这里插入图片描述
注：Excel文件名无所谓（最好不要有中文和特殊字符）。

我们希望做成的汇总数据表如下：

在这里插入图片描述

主要思路及实现代码：

1、先获取目标文件路径下的所有Excel文件：

这里用的是 os 模块的 walk 方法来获取：

# 先遍历目录下文件
path = './tables' # 此处用的是相对路径(如自己试验，需注意自己的文件路径)
f = os.walk(path)
files = []  # xls 文件列表
# 获取目录下文件
for dir_path, dir_names, file_names in f:
    for file in file_names:
        # 筛选目录下xls格式文件
        if '.xls' in file:
            files.append(file)

print(files) # 测试获取的文件
# 打印结果：
# ['5.xls', '1.xls', '2.xls', '3.xls', '4.xls']

经过上面的代码，我们已经获取到了我们想要的Excel表格文件。

2、读取所有Excel表格数据：

分析： 因为我们要读取多个文件数据，每个文件的数据结构比较一致，后期还要进行数据汇总与统计工作。
所以在前期选好一个 数据结构来存储数据 ，是非常重要的。这里决定先设计一个包含列表的列表来存储数据，数据结构示意：
[[[第一行数据：学院班级信息]，[第二行数据: 报名信息字段], [第三行数据：报名信息]…], [第二个表数据],[],…]

这里不用字典结构来存储数据，是为了后期统计数据方便。如果按照逻辑来说，用字典的键对应文件名或学院班级信息，值对应该班级报名信息更合理些。

读取数据也比较关键，先定义了一个读取单个表格数据的函数：

# 定义读取单个 excel 文件数据
def read_excel(name):
    file_path = path + '/'+ name
    work_book = xlrd.open_workbook(file_path)
    sheet = work_book.sheet_by_index(0)
    return sheet._cell_values[1:]

# 测试一下：
print(read_excel(files[0]))
# ------运行结果------
# [['学院：', '机械学院', '', '年级：', 2015.0, '专业：', '模具设计', ''], 
# ['姓名', '学号', '性别', '年龄', '参赛项目', '是否参加往届过校运会', '能否参加集训', '联系方式'], 
# ['阮小二', 150914031.0, '男', 23.0, '10000米', '否', '能', 15854441586.0], 
# ['阮小五', 150914025.0, '男', 21.0, '400米', '否', '能', 17054661590.0], 
# ['阮小七', 150914010.0, '男', 22.0, '1000米', '否', '能', 18953000549.0],
# ...
# ------运行结果------

可以看到，写的方法可以成功的读取到单个表格的数据（忽略数据内容…，人名太难想了…）。

有了这个方法读取所有表格的数据就很简单了，这里用的是列表推导式：

# 读取目录下所有数据
sign_data = [read_excel(name) for name in files]
print(sign_data)  # 测试读取到的所有数据
# ------运行结果------
# [[['学院：', '机械学院', '', '年级：', 2015.0, '专业：', '模具设计', ''], 
# ['姓名', '学号', '性别', '年龄', '参赛项目', '是否参加往届过校运会', '能否参加集训', '联系方式'], 
# ['阮小二', 150914031.0, '男', 23.0, '10000米', '否', '能', 15854441586.0], 
# ['阮小五', 150914025.0, '男', 21.0, '400米', '否', '能', 17054661590.0], 
# ['阮小七', 150914010.0, '男', 22.0, '1000米', '否', '能', 18953000549.0], 
# ['时迁', 150914034.0, '男', 22.0, '乒乓球', '否', '能', 15468081558.0], 
#