Python-pandas批量读取同一文件夹下的所有.xlsx文件并提取指定列写入一张excel表

友情提示:

程序虽然没有import openpyxl模块,但是操作Excel都要pip  openpyxl模块才行,不然会报错的哦

-------------------------------------------------------粗壮的分割线--------------------------------------------------------

工作需要将一批csv文件转为excel文件并进行数据计算处理,因为csv文件为;分割,并且转为excel文件后可能同一个名称的列不在同一列,比如同样是Paid Price名称的列,一个文件在AL列,两一个在AO列,如果单纯的读取所有文件并合并的话就会导致数据错列排放,在网上找了很多教程并没有现成的程序解决问题,所以就只能自己动手丰衣足食了。

每个.xlsx文件都是有csv转换过来的,详见上一篇文章Python批量处理csv文件转Excel--xlsx文件——利用pandas库(csv文件可指定分隔符)

处理思路:

因为文件中的数据并不是所有的数据都有用,只有部分列数据有用,所以可以根据文件中列名称获取索引号,并根据索引号获取整列的数据,再将获取的列数据写入新的excel文件中,加上for循环即可批量写入所有excel文件,为了区分每行数据来自哪个文件,可以 加入下列代码每次循环读取指定列数据之后追加一列数据,列数据标题为“店铺”,列内容为文件名

 # 追加一列数据,将每个文件的名字追加进该文件的数据中,确定每条数据属于哪个文件
                excel_name = file.replace(".xlsx", "")      # 提取每个excel文件的名称,去掉.xlsx后缀
                df["店铺"] = excel_name       # 新建列名为“店铺”,列数据为excel文件名
                dfs.append(df)      # 将新建店铺列追加进汇总excel中

文件夹内容:

需合并文件详情实例(黄色底色是我打开文件后手动添加的,并不是程序中写的)

合并后文件示例res.xlsx:

处理代码:

# -*- coding:utf-8 –*-

"""
利用pandas将多张excel表中的指定列数据合并成一张;因为原始的多张数据存在同样列名的数据,
因为原始多张excel是从csv文件转换股
并且我们只需要其中的部分列数据,所以进行指定列提取并汇总至res文件中
"""
import os
import pandas as pd

# 输入参数为excel表格所在目录
def to_one_excel(dir):
    dfs = []
    # 遍历文件目录,将所有表格表示为pandas中的DataFrame对象
    # for root_dir, sub_dir, files in os.walk(r'' + dir):     # 第一个为起始路径,第二个为起始路径下的文件夹,第三个是起始路径下的文件。
    for root_dir, sub_dir, files in os.walk(dir):     # 第一个为起始路径,第二个为起始路径下的文件夹,第三个是起始路径下的文件。
        for file in files:
            if file.endswith('xlsx'):
                # 构造绝对路径
                file_name = os.path.join(root_dir, file)
                # df = pd.read_excel(file_name)
                df_1 = list(pd.read_excel(file_name, nrows=1))  # 读取excel第一行数据并放进列表
                # excel第一行数据返回列表
                print(file_name)
                print(type(df_1))
                print(df_1)
                # 根据第一行列名获取每个文件中需要列的列索引,返回索引数值
                suo_yin_1 = df_1.index("Billing Country")
                suo_yin_2 = df_1.index("Created at")
                suo_yin_3 = df_1.index("Updated at")
                suo_yin_4 = df_1.index("Paid Price")
                suo_yin_5 = df_1.index("Shipment Type Name")
                suo_yin_6 = df_1.index("Status")
                # 读取文件内容  usecols=[1, 3, 4] 读取第1,3,4列
                df = pd.read_excel(file_name, usecols=[suo_yin_1, suo_yin_2, suo_yin_3, suo_yin_4, suo_yin_5, suo_yin_6]
                                   , sheet_name='data')
                
                # pf = pd.read_excel('xxx.xls', usecols=[1, 3, 4], sheet_name='data')
                # print(pf)
                
                # 追加一列数据,将每个文件的名字追加进该文件的数据中,确定每条数据属于哪个文件
                excel_name = file.replace(".xlsx", "")      # 提取每个excel文件的名称,去掉.xlsx后缀
                df["店铺"] = excel_name       # 新建列名为“店铺”,列数据为excel文件名
                dfs.append(df)      # 将新建店铺列追加进汇总excel中
    # 行合并
    df_concated = pd.concat(dfs)

    # 构造输出目录的绝对路径
    out_path = os.path.join(dir, 'res.xlsx')
    # 输出到excel表格中,并删除pandas默认的index列
    df_concated.to_excel(out_path, sheet_name='Sheet1', index=None)

# 调用并执行函数
to_one_excel(r'C:\Users\Administrator\Desktop\ceshi\xlsx文件')

  • 26
    点赞
  • 206
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
### 回答1: 实现批量读取同一文件夹下所有excel指定单元格内容并写入新单元格的方法如下: 1. 导入必要的库: ``` python import os import openpyxl ``` 2. 定义一个函数,用于读取指定单元格内容并将其写入新单元格: ``` python def read_write_cell(file_path, sheet_name, source_cell, target_cell): # 打开excel文件 wb = openpyxl.load_workbook(file_path) # 选择指定的sheet sheet = wb[sheet_name] # 读取指定单元格的内容 source_value = sheet[source_cell].value # 写入新单元格 sheet[target_cell] = source_value # 保存文件 wb.save(file_path) # 关闭文件 wb.close() ``` 3. 获取指定文件夹下所有excel文件的路径,并调用read_write_cell函数进行读写操作: ``` python # 指定文件夹路径 folder_path = '文件夹路径' # 遍历文件夹所有文件 for filename in os.listdir(folder_path): if filename.endswith('.xlsx') or filename.endswith('.xls'): # 构建完整的文件路径 file_path = os.path.join(folder_path, filename) # 执行读写操作,例如将A1单元格的内容写入B1单元格 read_write_cell(file_path, 'Sheet1', 'A1', 'B1') ``` 以上代码会遍历指定文件夹下的所有excel文件,然后读取指定单元格的内容,并将其写入新的单元格。你可以根据自己的需求,修改read_write_cell函数的参数来选择读取写入的单元格位置。 ### 回答2: 批量读取同一文件夹下所有Excel文件指定单元格内容,并将其写入新的单元格,可以使用Pythonpandas和openpyxl库来实现。 首先,需要安装pandas和openpyxl库。在命令行使用以下命令安装: ```python pip install pandas openpyxl ``` 然后,使用以下代码来实现批量读取写入操作: ```python import pandas as pd import os # 指定文件夹路径 folder_path = '指定文件夹路径' # 获取文件夹所有的Excel文件 files = [f for f in os.listdir(folder_path) if f.endswith('.xlsx') or f.endswith('.xls')] # 遍历每个Excel文件 for file in files: # 构造文件路径 file_path = os.path.join(folder_path, file) # 读取Excel文件 df = pd.read_excel(file_path, sheet_name='Sheet1') # 假设需要获取的单元格在Sheet1 # 获取指定单元格内容 cell_value = df.at[1, 'A'] # 假设需要获取的单元格是A2 # 将内容写入新单元格(假设需要写入的单元格是B2) df.at[1, 'B'] = cell_value # 保存修改后的Excel文件 df.to_excel(file_path, index=False) ``` 这段代码会遍历指定文件夹下的每一个Excel文件读取每个文件指定单元格内容,将其写入新的单元格,并保存修改后的Excel文件。 需要注意的是,代码的`sheet_name`参数需要指定读取的工作名称,`at`方法的行和需要根据实际需求进行调整。 另外,在使用这段代码之前,请确保文件夹路径只包含需要处理的Excel文件,否则可能会导致错误。 ### 回答3: 要批量读取同一文件夹下的所有Excel文件指定单元格内容,并将其写入新的单元格,可以使用Python编程语言和pandas库来实现。 首先,我们需要导入所需的库: ```python import os import pandas as pd ``` 然后,我们可以定义一个函数来实现读取写入的操作: ```python def read_and_write_excel(file_path, sheet_name, read_cell, write_cell): df = pd.read_excel(file_path, sheet_name=sheet_name) content = df.loc[0, read_cell] df.loc[0, write_cell] = content df.to_excel(file_path, index=False) ``` 在这个函数,我们首先使用`pd.read_excel()`方法读取Excel文件指定工作。然后,我们使用`df.loc[]`方法来获取指定单元格的内容。将获取到的内容写入到新单元格,再使用`df.to_excel()`方法将修改后的数据保存回Excel文件。 接下来,我们可以编写一个遍历文件夹所有Excel文件的函数,并调用之前定义的函数批量处理: ```python def batch_process_folder(folder_path, sheet_name, read_cell, write_cell): files = os.listdir(folder_path) for file in files: if file.endswith(".xlsx") or file.endswith(".xls"): file_path = os.path.join(folder_path, file) read_and_write_excel(file_path, sheet_name, read_cell, write_cell) ``` 在这个函数,我们使用`os.listdir()`方法获取文件夹的所有文件,并使用`os.path.join()`方法构建每个Excel文件的完整路径。然后,根据文件的扩展名来判断是否为Excel文件,如果是的话则调用之前定义的`read_and_write_excel()`函数进行处理。 最后,我们只需要提供文件夹路径、工作名、读取单元格地址和写入单元格地址作为参数调用`batch_process_folder()`函数即可实现批量读取写入Excel文件指定单元格的内容。 以下是一个具体的示例: ```python folder_path = "文件夹路径" sheet_name = "工作名" read_cell = "读取单元格地址" write_cell = "写入单元格地址" batch_process_folder(folder_path, sheet_name, read_cell, write_cell) ``` 请注意,上述示例读取单元格地址和写入单元格地址应按照Excel的命名约定进行书写,例如:"A1"示第1行第1的单元格。
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值