python 多进程 multiprocessing pool vs processpoolexecutor

多进程

处理大量数据时用多进程可以大大加快处理的速度。常见的有两个库,并且有多种写法
下面给出不同的写法,以及对比效果。

from concurrent import futures
import time
from multiprocessing import Pool
import json
from tqdm import tqdm
import math

def func(n):
    time.sleep(1)
    return n
    
#多进程的方法,64个workers,完成了就写入文件
def ProcessPool(num_workers, args, write_file):
    writer = open(write_file, 'w')
    with futures.ProcessPoolExecutor(max_workers=num_workers) as executor:
        fs = []
        for arg in args:
            fs.append(executor.submit(func, arg))

        for f in tqdm(futures.as_completed(fs), total=len(fs)):
            try:
                info = {"path": f.result()}
                writer.write(json.dumps(info, ensure_ascii=False) + '\n')
                writer.flush()
            except Exception as e:
                print(e)

#笨蛋写法
#1、w+一起再写入,这样会很慢,因为空间复杂度极高!!!,应该逐个写入,并且flush()
#2、map注意对于很长的迭代对象,可能消耗很多内存。可以考虑使用 imap() 或 imap_unordered() 并且显示指定 chunksize 以提升效率。
def process(file_lists, write_file):
    f_w = open(write_file, 'w')
    print('bigin process, wait........')
    with Pool(64) as p:
        outs = p.map(func, file_lists)
    print('bigin write, wait........')
    w = ''
    for out in outs:
        anno = {"path": out}
        w += json.dumps(anno, ensure_ascii=False) + '\n'

    with open(write_file, 'w') as f_w:
        f_w.write(w)

def proces_new1(file_lists, write_file):
    print('bigin process, wait........')
    f_w = open(write_file, 'w')
    with Pool(64) as p:
        for i in tqdm(range(math.ceil((len(file_lists)/64)))):
            outs = p.map(func, file_lists[i*64:(i+1)*64])

            for out in outs:
                anno = {"path": out}
                f_w.write(json.dumps(anno, ensure_ascii=False) + '\n')
            f_w.flush()

def proces_new2(file_lists, write_file):
    f_w = open(write_file, 'w')
    print('bigin process, wait........')
    outs = []
    with Pool(64) as p:
        for res in tqdm(p.imap(func, file_lists), total=len(file_lists)):
            info = {"path": res}
            f_w.write(json.dumps(info, ensure_ascii=False) + '\n')
            f_w.flush()
            
if __name__ == "__main__":
    lists = range(2000)
    start = time.time()
    write_file = 'out.txt'
    process(lists, write_file)
    time1 = time.time()
    print('v1 speed: {}'.format(time1 - start))
    write_file = 'out2.txt'
    proces_new1(lists, write_file)
    time2 = time.time()
    print('v2 speed: {}'.format(time2 - time1))
    write_file = 'out3.txt'
    ProcessPool(64, lists, write_file)
    time3 = time.time()
    print('v3 speed: {}'.format(time3 - time2))

上述函数执行的输出

bigin process, wait........
bigin write, wait........
v1 speed: 33.38949918746948
bigin process, wait........
100%|██████████████████████████████████████████████| 32/32 [00:34<00:00,  1.08s/it]
v2 speed: 35.787909746170044
100%|███████████████████████████████████████████| 2000/2000 [00:32<00:00, 61.31it/s]
v3 speed: 34.20087647438049range(200000)的结果如下
bigin process, wait........
bigin write, wait........
v1 speed: 3321.7403123378754
bigin process, wait........
100%|██v2 speed: 3675.6794664859774<00:10,  1.01s/it] 
100%|██████████| 3125/3125 [1:01:14<00:00,  1.18s/it]
100%|██████████| 200000/200000 [50:49<00:00, 65.59it/s]  
v3 speed: 3198.1027359962463

用了200000次用来测试,其实可以用2000个,这样可以更快
当数据很少时,用v1就可以了,因为调用进程只有 一次,一次性写完。但是没有记时,写入信息不实时。
当数据量很大,建议用v2或者v3,v2和v1比多了进程调用的时间,好处是实时的写入了文件,而且用了tqdm记录时间
v3在数据量很大的时候是更快的方法,但是和v2比,v3写入的文件是乱序的。

最后附上一个等价v3的方法,用pool实现的,详见proces_new2。推荐用这个
其他:https://superfastpython.com/multiprocessing-pool-vs-processpoolexecutor/

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
Pythonmultiprocessing.Pool模块和multiprocessing.dummy.Pool模块都是用于创建进程池和线程池的工具。 进程池(multiprocessing.Pool)是一组维护在进程中的工作者,它们可以并行地执行任务。该模块是基于multiprocessing模块实现的,它通过创建多个进程来并行执行任务。 下面是一个创建进程池的示例: ``` python import multiprocessing def worker(process_num): print("Process %d is working" % process_num) if __name__ == '__main__': pool = multiprocessing.Pool(processes=4) for i in range(5): pool.apply_async(worker, args=(i,)) pool.close() pool.join() ``` 上面的示例中,我们创建了一个包含4个进程的进程池,并向进程池中提交了5个任务,每个任务调用worker函数并传递一个进程编号作为参数。我们使用apply_async方法向进程池中提交任务,并使用close和join方法管理进程池。 线程池(multiprocessing.dummy.Pool)是一组维护在线程中的工作者,它们可以并行地执行任务。该模块是基于threading模块实现的,它通过创建多个线程来并行执行任务。 下面是一个创建线程池的示例: ``` python from multiprocessing.dummy import Pool import time def worker(thread_num): print("Thread %d is working" % thread_num) time.sleep(1) if __name__ == '__main__': pool = Pool(4) for i in range(5): pool.apply_async(worker, args=(i,)) pool.close() pool.join() ``` 上面的示例中,我们创建了一个包含4个线程的线程池,并向线程池中提交了5个任务,每个任务调用worker函数并传递一个线程编号作为参数。我们使用apply_async方法向线程池中提交任务,并使用close和join方法管理线程池。 需要注意的是,线程池和进程池的用法基本相同,但是由于线程在Python中不能真正地并行执行,因此线程池的性能可能比进程池差。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

yang_daxia

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值