Python3 批量合并Excel
以下为实战经验分享:
如果是需要先处理在合并的话 ,只需在merge_file()方法下进行调整。
Windows 下 这里推荐使用search() 方法查找文件,非 Windows 可以使用下面的get_file()方法,具体原因可以查阅关于pathlib 包。
Windows 下查找路径下某类型的文件
import os
def search(dirname, filename):
"""
:param dirname: 需要查找的目录
:param filename: 文件类型
:return:
"""
result =[]
for item in os.listdir(dirname):
item_path = os.path.join(dirname, item)
if os.path.isdir(item_path):
search(item_path, filename)
elif os.path.isfile(item_path):
if filename in item:
result.append(item_path)
return result
非Windows用户下面方法请参考,(mac 用户亲测有效)
import pandas as pd
from pathlib import Path
def get_file(patterns, path):
"""
:param patterns: 所要查找的文件类型
:param path: 路径
:return:
"""
all_files = []
p = Path(path)
for item in patterns:
# 关于glob查找文件,可以去查阅相关资料,与正则类似
file_name = p.rglob(f'**/*.{item}')
all_files.extend(file_name)
return all_files
def merge_file(file):
"""
:param file: 文件名
"""
merge_file_name = pd.DataFrame()
for i in file:
print(i)
"""
对于 含有身份证,手机号码,日期 等格式,这里希望你指定格式读取
如下方,coverters = {'身份证号码': str}} 防止合并出错
"""
df = pd.read_excel(str(i), converters={'身份证号码': str})
# 如果需要先处理每一个文件,可以在此编写相关代码
merge_file_name = merge_file_name.append(df, ignore_index=False)
merge_file_name = merge_file_name.drop_duplicates()
merge_file_name.to_excel(goal_file, index=None)
if __name__ == '__main__':
# 目标文件名及路径
goal_file = ''
# 需要查找文件的路径
path = ''
# 查找多个表达式为['xls','xlsx',]
# 如下查找所有'xls' 文件
merge_file(get_file(['xls',], path)
有不明白的地方,欢迎提问