Python基础-文件批量操作

凑齐六个字吧

于 2024-07-26 08:32:19 发布

阅读量249

点赞数 7

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/zfyyzhys/article/details/140705091

版权

python 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1、获得目录下面所有文件的列表

#%%
from pathlib import Path
print(Path.cwd())
# /Users/zaneflying

# 创建Path实例
folder = Path("/Users/zaneflying/Desktop/practice/PC/")
for file in folder.iterdir(): #iterdir显示所有的子目录或者文件
    print(file.name)
# pathway.csv
# complete_matrix_output CTRPv2.txt
# .DS_Store
# practice.py
# GBM Counts_matrix.csv
# Autophagy.xlsx

for file in folder.rglob("*.py"): #rglob()函数：递归遍历所有满足条件的文件
    print(file.name)
# practice.py

Path功能十分强大，里边有很多函数可以选择。

Path.cwd() : 获取当前工作目录；f.exists()：判断某个实例是否存在； f.is_dir()：判断该路径是否是目录； f.is_file()：判断该路径是否是文件； f.stat().st_size: 得到某个文件的大小；f.absolute()：获得绝对路径； f.parent(): 获取路径的上级路径； f.name: 获取文件名；f.stem: 获取文件前缀；f.suffix: 获取文件后缀。

2、筛选及复制文件

第一步：设置目标路径；第二步：筛选所需文件；第三步：复制所需文件(用到shutil函数)。

#%%
# 移动文件位置
from pathlib import Path
import  shutil #用于复制文件

new_folder = Path("/Users/zaneflying/Desktop/practice/PC1/")
# 创建文件夹
if not new_folder.exists(): 
    new_folder.mkdir()

# 把PC文件夹中以.py末尾的文件复制到PC1中
raw_folder = Path("/Users/zaneflying/Desktop/practice/PC/")
for file in raw_folder.rglob("*.csv"):
    shutil.copy(file,new_folder)

3、文件批量重命名

第一步：设计重命名规则，比如“dataset”+递增数字+“.csv”; 第二步：获取需要命名的文件，使用filepath.rglob(“*.csv”)；第三步：依次对文件重命名

#%%
from pathlib import Path

filepath = Path("/Users/zaneflying/Desktop/practice/PC1/")
filelist = filepath.rglob("*.csv")

for index, file in enumerate(filelist): # enumerate可以统计文件的索引顺序
    name = "testdata" + str(index + 1) + ".csv" # str可以把数字变成字符串
    file.rename(filepath/name) # 在原本的路径下生成文件，需要把原路径链接到name上

4、文件批量读写、简单的拼接及关联合并

#%%
#批量合并

import pandas as pd
from pathlib import Path

filepath = Path("/Users/zaneflying/Desktop/practice/PC1/")
filelist = filepath.rglob("*.csv")

dataFrames = []

for file in filelist :
    df = pd.read_csv(file)
    dataFrames.append(df)
    
mergeData = pd.concat(dataFrames, ignore_index=True) #简单的纵向拼接
# 以下是pd.concat中的重要参数 
# objs：需要合并的 DataFrame 或 Series 对象序列（列表或字典）。
# axis：沿着哪个轴进行合并，0 表示按行（垂直）合并，1 表示按列（水平）合并。默认为 0。
# ignore_index：如果为 True，则忽略原始对象的索引，重新生成一个新的索引。默认为 False。
# join：决定如何处理其他轴上的索引，默认是 outer（外连接），可选 inner（内连接）。
# keys：用于创建层次化索引。
# 若使用df1.append(df2)只能是纵向拼接

#定义输出文件名
output_file = filepath / "merge_data.csv"
mergeData.to_csv(output_file,index = False)

注：若对内容有疑惑或者有发现明确错误的朋友，请联系后台(欢迎交流)。更多内容可关注公众号：生信方舟

- END -

凑齐六个字吧

关注

7
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python基础-文件批量操作

Path.cwd() : 获取当前工作目录；f.exists()：判断某个实例是否存在；f.is_dir()：判断该路径是否是目录；f.is_file()：判断该路径是否是文件；f.stat().st_size: 得到某个文件的大小；f.absolute()：获得绝对路径；f.parent(): 获取路径的上级路径；f.stem: 获取文件前缀；第二步：获取需要命名的文件，使用filepath.rglob(“*.csv”)；：若对内容有疑惑或者有发现明确错误的朋友，请联系后台(欢迎交流)。
复制链接

扫一扫

专栏目录