Python基础-文件批量操作

1、获得目录下面所有文件的列表
#%%
from pathlib import Path
print(Path.cwd())
# /Users/zaneflying

# 创建Path实例
folder = Path("/Users/zaneflying/Desktop/practice/PC/")
for file in folder.iterdir(): #iterdir显示所有的子目录或者文件
    print(file.name)
# pathway.csv
# complete_matrix_output CTRPv2.txt
# .DS_Store
# practice.py
# GBM Counts_matrix.csv
# Autophagy.xlsx

for file in folder.rglob("*.py"): #rglob()函数:递归遍历所有满足条件的文件
    print(file.name)
# practice.py

Path功能十分强大,里边有很多函数可以选择。

Path.cwd() : 获取当前工作目录;f.exists():判断某个实例是否存在; f.is_dir():判断该路径是否是目录; f.is_file():判断该路径是否是文件; f.stat().st_size: 得到某个文件的大小;f.absolute(): 获得绝对路径; f.parent(): 获取路径的上级路径; f.name: 获取文件名;f.stem: 获取文件前缀;f.suffix: 获取文件后缀。

2、筛选及复制文件

第一步:设置目标路径;第二步:筛选所需文件;第三步:复制所需文件(用到shutil函数)。

#%%
# 移动文件位置
from pathlib import Path
import  shutil #用于复制文件

new_folder = Path("/Users/zaneflying/Desktop/practice/PC1/")
# 创建文件夹
if not new_folder.exists(): 
    new_folder.mkdir()

# 把PC文件夹中以.py末尾的文件复制到PC1中
raw_folder = Path("/Users/zaneflying/Desktop/practice/PC/")
for file in raw_folder.rglob("*.csv"):
    shutil.copy(file,new_folder)
3、文件批量重命名

第一步:设计重命名规则,比如“dataset”+递增数字+“.csv”; 第二步:获取需要命名的文件,使用filepath.rglob(“*.csv”);第三步:依次对文件重命名

#%%
from pathlib import Path

filepath = Path("/Users/zaneflying/Desktop/practice/PC1/")
filelist = filepath.rglob("*.csv")

for index, file in enumerate(filelist): # enumerate可以统计文件的索引顺序
    name = "testdata" + str(index + 1) + ".csv" # str可以把数字变成字符串
    file.rename(filepath/name) # 在原本的路径下生成文件,需要把原路径链接到name上
4、文件批量读写、简单的拼接及关联合并
#%%
#批量合并

import pandas as pd
from pathlib import Path

filepath = Path("/Users/zaneflying/Desktop/practice/PC1/")
filelist = filepath.rglob("*.csv")

dataFrames = []

for file in filelist :
    df = pd.read_csv(file)
    dataFrames.append(df)
    
mergeData = pd.concat(dataFrames, ignore_index=True) #简单的纵向拼接
# 以下是pd.concat中的重要参数 
# objs:需要合并的 DataFrame 或 Series 对象序列(列表或字典)。
# axis:沿着哪个轴进行合并,0 表示按行(垂直)合并,1 表示按列(水平)合并。默认为 0。
# ignore_index:如果为 True,则忽略原始对象的索引,重新生成一个新的索引。默认为 False。
# join:决定如何处理其他轴上的索引,默认是 outer(外连接),可选 inner(内连接)。
# keys:用于创建层次化索引。
# 若使用df1.append(df2)只能是纵向拼接

#定义输出文件名
output_file = filepath / "merge_data.csv"
mergeData.to_csv(output_file,index = False)

:若对内容有疑惑或者有发现明确错误的朋友,请联系后台(欢迎交流)。更多内容可关注公众号:生信方舟

- END -

  • 7
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值