使用多线程读取pandas

躺平的乐子人

于 2024-08-09 08:46:23 发布

阅读量78

点赞数 2

分类专栏： Python 文章标签： pandas python 开发语言

本文链接：https://blog.csdn.net/weixin_73368873/article/details/141051906

版权

Python 专栏收录该内容

14 篇文章 1 订阅

订阅专栏

背景

这两天需要用到python下载数据，用pandas读了之后发现单线程执行有点慢，所以改成多线程代码如下：

data = pd.read_sql(query, engine)
data.columns = ['BARCODE','pictrue_name','path','V_MONTH','V_DAY','V_HOUR']
i=1


def copy_file(row):
    value1 = row[1]
    source2 = str(row[2])
    destination_folder = os.path.join("D:\\", row[3], row[4], row[0])

    if not os.path.exists(destination_folder):
        os.makedirs(destination_folder)

    save_path = os.path.join(destination_folder, value1)

    shutil.copy(source2, save_path)



with ThreadPoolExecutor(max_workers=8) as executor:
    # 提交任务到线程池
    futures = [executor.submit(copy_file, row) for row in data.itertuples(index=False)]

    # 等待所有任务完成
    for future in futures:
        future.result()

多线程这一步比较简单，主要不和数据库有交互，python封装得挺好的，比最开始快了七八倍