多线程拼接文件夹CSV文件
问题来源
在进行数据处理时,需要先将数据拼接,最终在作处理。可文件夹中的数据文件比较多,且文件较大, 如果依次使用pandas读取拼接,花费时间较长,于是便想到使用多线程处理某一文件夹下的所有数据文件。
解决方法
主要是通过multiprocessing库中的pool.apply_async, apply_async不用等待当前进程执行完毕,随时根据系统调度来进行进程切换。
show the code
import pandas as pd
from multiprocessing import Pool
from glob import glob
def read_csv_file(file_name):