高效循环读取excel中有多个sheet的两种方法

最新推荐文章于 2024-06-28 11:27:01 发布

weixin_43581124

最新推荐文章于 2024-06-28 11:27:01 发布

阅读量6.3k

点赞数 8

分类专栏：技术文章标签： python excel

本文链接：https://blog.csdn.net/weixin_43581124/article/details/108015535

版权

技术专栏收录该内容

18 篇文章 1 订阅

订阅专栏

先说明一下如果单纯地使用read_excel方法，会导致效率极其低下，因为read_excel第一个参数是要传path（如：r’C:\Users\Desktop\贷款\data.xlsx’）给计算机，每一次循环都要再传一次，简直慢的不要不要的，而ExcelFile则是一个类，给计算机循环传类就不会存在这种问题。
以下是传统方法：

wb = xlrd.open_workbook(r'C:\Users\Desktop\贷款\data.xlsx')
 # 获取workbook中所有的表格
sheets = wb.sheet_names()
data2 = pd.DataFrame()
for i in range(len(sheets)):
    df2 = pd.read_excel(r'C:\Users\Desktop\贷款\data.xlsx'', sheet_name=sheets[i], index=False, encoding='utf8',converters={'外呼任务批次':str,'座席工号':str})
    data2 = data2.append(df2)
    print(i)
    print(sheets[i])

这里要介绍一下国外大神的方法：附链接（https://stackoverflow.com/questions/26474693/excelfile-vs-read-excel-in-pandas/38560203#38560203），以下是搬运过来的。
从技术上讲，ExcelFile是一个类，read_excel是一个函数。无论哪种情况，实际的解析都是由中_parse_excel定义的方法处理的ExcelFile。所以可以使用以下两种传类的方法来进行。
PS:我这个excel每一个sheet有上万行，共有30多个sheet。
1、ExcelFile&read_excel方法；

xl = pd.ExcelFile(path)
for name in xl.sheet_names:
    df = pd.read_excel(xl, name)

2、ExcelFile&parse方法。

xl = pd.ExcelFile(path)
for name in xl.sheet_names:
    df = xl.parse(name)

下面是实际运行代码

import pandas as pd
def read_excel1(path):
    data_xlsx = pd.ExcelFile(path)
    print(data_xlsx.sheet_names)
    data=pd.DataFrame()
    for name in data_xlsx.sheet_names:
        df=data_xlsx.parse(sheet_name=name,converters={'外呼任务批次':str,'座席工号':str,'问卷调查结果':str})
#         data[name]=df
        data = data.append(df)
#         print(df)
        print(name)
    return data
path=r'C:\Users\Desktop\贷款\data.xlsx'
data=read_excel1(path)

import pandas as pd
def read_excel1(path):
    data_xlsx = pd.ExcelFile(path)
    print(data_xlsx.sheet_names)
    data=pd.DataFrame()
    for name in data_xlsx.sheet_names:
        df=data_xlsx.read_excel(data_xlsx,sheet_name=name, encoding='utf8',converters={'外呼任务批次':str,'座席工号':str,'问卷调查结果':str})
#         data[name]=df
        data = data.append(df)
#         print(df)
        print(name)
    return data

path=r'C:\Users\Desktop\贷款\data.xlsx'
data=read_excel1(path)