有时数据量太大电脑内存不足,此时可以把数据切割成多份分开跑,再合到一起
下面直接给出dataframe切割方法
import math
import pandas as pd
from tqdm import tqdm
def cut_df(file_name, n):
df = pd.read_csv(file_name)
df_num = len(df)
every_epoch_num = math.floor((df_num/n))
for index in tqdm(range(n)):
file_name = f'./XXX_{index}.csv' # 切割后的文件名
if index < n-1:
df_tem = df[every_epoch_num * index: every_epoch_num * (index + 1)]
else:
df_tem = df[every_epoch_num * index:]
df_tem.to_csv(file_name, index=False)
其中file_name是你要切割的文件名,n是要切成的份数
数据合并(纵向)
df = pd.concat([df1, df2, df3])