数据情况:一个文件夹里有1.csv 2.csv 3.csv ........200.csv等200个文件,每个文件只有一列数据,现在要循环读取这些数据到一个新的csv文件里,变成200行数据。(dat文件同样适用)
代码如下:
import numpy as np
import pandas as pd
from natsort import ns,natsorted #这个很重要,有利于按照1~200.csv的顺序读取csv文件
import glob
import os
path_in = r'E:\Temp\…………这里输入你的路径就好'
file_names = os.listdir(path_in)
file_paths = glob.glob(os.path.join(path_in,'*.csv'))
file_paths = natsorted(file_paths,alg=ns.PATH)
print(file_paths)
df1 = pd.DataFrame()
for file in file_paths:
df2 = pd.read_csv(file,sep=',',header=None)
df2 = df2.T[:] #进行转置(因为我是想把之前的列变行,所以转置了一下)
df1 = pd.concat([df1, df2], axis=0) #axis=0意思是纵向拼接,=1的时候是横向拼接
print('dataframe的维度是:', df1.shape)
print(df1)
# 输出数据到本地
df1.to_csv(r'E:\Temp……这是输出路径\result.csv', index=False, sep=',')
其中有两个注意的点:
一个是批量读取文件夹下的csv数据时,如果没有
from natsort import ns,natsorted
……
file_paths = natsorted(file_paths,alg=ns.PATH)
那么批量读取文件的顺序是错误的,可以用print(file_paths)检查一下。
另一个是因为我之前的数据是按列排的,现在要转成行,需要进行转置以及选择合适的数据拼接方式。