Python将方法放置到线程池中,多线程执行;方法执行效率翻倍提升!

import multiprocessing as mp
import traceback
import pandas as pd


def process_df_chunk(df_chunk: object, iterrows_map: dict) -> object:
    """
    对块数据进行批处理,通过vocab字典拿到对应的函数对象及参数
    :param df_chunk: dataFrame
    :param iterrows_map:{obj:['','','',..]}
    :return: dataFrame
    """
    for f in iterrows_map:
        for i, row in df_chunk.iterrows():
            if row['language_type'] in ['zh', 'en']:
                df_chunk.at[i, iterrows_map[f][0]], df_chunk.at[i, iterrows_map[f][1]] = f(
                    row[iterrows_map[f][2]], iterrows_map[f][3]
                )
    return df_chunk

def process_df(df: object, iterrows_map: dict, num_processes=6) -> object:
    """
    分块处理,完成后重写组装数据
    :param df:
    :param iterrows_map: {obj:['','','',..]}
    :param num_processes:
    :return: dataFrame
    """
    df_chunks = [df[i:i + num_processes] for i in range(0, df.shape[0], num_processes)]
    with mp.Pool(processes=num_processes) as pool:
        df_list = pool.starmap(process_df_chunk, [(chunk, iterrows_map) for chunk in df_chunks])
    return pd.concat(df_list)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python,创建线程池有多种方式。其一种方式是使用multiprocessing.dummy模块的Pool类。可以通过以下代码创建一个线程池: from multiprocessing.dummy import Pool as ThreadPool pool = ThreadPool() 另外一种方式是使用concurrent.futures模块的ThreadPoolExecutor类。可以通过以下代码创建一个线程池: from concurrent.futures import ThreadPoolExecutor pool = ThreadPoolExecutor() 这两种方式都可以创建一个线程池,用于执行多线程任务。线程池在系统启动时即创建大量空闲的线程,程序只要将一个函数提交给线程池线程池就会启动一个空闲的线程来执行它。当该函数执行结束后,该线程并不会死亡,而是再次返回到线程池变成空闲状态,在线程池等待任务执行线程池的优点是可以重复利用线程,避免了频繁创建和销毁线程的开销。\[1\]\[2\]\[3\] #### 引用[.reference_title] - *1* *2* [python 多线程 线程池的四种实现方式](https://blog.csdn.net/ye__mo/article/details/123664568)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^koosearch_v1,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [python多线程系列—线程池ThreadPoolExecutor(八)](https://blog.csdn.net/weixin_54542209/article/details/126284730)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^koosearch_v1,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值