友情提示:
程序虽然没有import openpyxl模块,但是操作Excel都要pip openpyxl模块才行,不然会报错的哦
-------------------------------------------------------粗壮的分割线--------------------------------------------------------
工作需要将一批csv文件转为excel文件并进行数据计算处理,因为csv文件为;分割,并且转为excel文件后可能同一个名称的列不在同一列,比如同样是Paid Price名称的列,一个文件在AL列,两一个在AO列,如果单纯的读取所有文件并合并的话就会导致数据错列排放,在网上找了很多教程并没有现成的程序解决问题,所以就只能自己动手丰衣足食了。
每个.xlsx文件都是有csv转换过来的,详见上一篇文章Python批量处理csv文件转Excel--xlsx文件——利用pandas库(csv文件可指定分隔符)
处理思路:
因为文件中的数据并不是所有的数据都有用,只有部分列数据有用,所以可以根据文件中列名称获取索引号,并根据索引号获取整列的数据,再将获取的列数据写入新的excel文件中,加上for循环即可批量写入所有excel文件,为了区分每行数据来自哪个文件,可以 加入下列代码每次循环读取指定列数据之后追加一列数据,列数据标题为“店铺”,列内容为文件名
# 追加一列数据,将每个文件的名字追加进该文件的数据中,确定每条数据属于哪个文件
excel_name = file.replace(".xlsx", "") # 提取每个excel文件的名称,去掉.xlsx后缀
df["店铺"] = excel_name # 新建列名为“店铺”,列数据为excel文件名
dfs.append(df) # 将新建店铺列追加进汇总excel中
文件夹内容:
需合并文件详情实例(黄色底色是我打开文件后手动添加的,并不是程序中写的)
合并后文件示例res.xlsx:
处理代码:
# -*- coding:utf-8 –*-
"""
利用pandas将多张excel表中的指定列数据合并成一张;因为原始的多张数据存在同样列名的数据,
因为原始多张excel是从csv文件转换股
并且我们只需要其中的部分列数据,所以进行指定列提取并汇总至res文件中
"""
import os
import pandas as pd
# 输入参数为excel表格所在目录
def to_one_excel(dir):
dfs = []
# 遍历文件目录,将所有表格表示为pandas中的DataFrame对象
# for root_dir, sub_dir, files in os.walk(r'' + dir): # 第一个为起始路径,第二个为起始路径下的文件夹,第三个是起始路径下的文件。
for root_dir, sub_dir, files in os.walk(dir): # 第一个为起始路径,第二个为起始路径下的文件夹,第三个是起始路径下的文件。
for file in files:
if file.endswith('xlsx'):
# 构造绝对路径
file_name = os.path.join(root_dir, file)
# df = pd.read_excel(file_name)
df_1 = list(pd.read_excel(file_name, nrows=1)) # 读取excel第一行数据并放进列表
# excel第一行数据返回列表
print(file_name)
print(type(df_1))
print(df_1)
# 根据第一行列名获取每个文件中需要列的列索引,返回索引数值
suo_yin_1 = df_1.index("Billing Country")
suo_yin_2 = df_1.index("Created at")
suo_yin_3 = df_1.index("Updated at")
suo_yin_4 = df_1.index("Paid Price")
suo_yin_5 = df_1.index("Shipment Type Name")
suo_yin_6 = df_1.index("Status")
# 读取文件内容 usecols=[1, 3, 4] 读取第1,3,4列
df = pd.read_excel(file_name, usecols=[suo_yin_1, suo_yin_2, suo_yin_3, suo_yin_4, suo_yin_5, suo_yin_6]
, sheet_name='data')
# pf = pd.read_excel('xxx.xls', usecols=[1, 3, 4], sheet_name='data')
# print(pf)
# 追加一列数据,将每个文件的名字追加进该文件的数据中,确定每条数据属于哪个文件
excel_name = file.replace(".xlsx", "") # 提取每个excel文件的名称,去掉.xlsx后缀
df["店铺"] = excel_name # 新建列名为“店铺”,列数据为excel文件名
dfs.append(df) # 将新建店铺列追加进汇总excel中
# 行合并
df_concated = pd.concat(dfs)
# 构造输出目录的绝对路径
out_path = os.path.join(dir, 'res.xlsx')
# 输出到excel表格中,并删除pandas默认的index列
df_concated.to_excel(out_path, sheet_name='Sheet1', index=None)
# 调用并执行函数
to_one_excel(r'C:\Users\Administrator\Desktop\ceshi\xlsx文件')