python缩短大量数据处理时间-进程池pool()和map()

一 定义与解释

  1. 对于python代码,多线程其实是个假的,因为每次计算的时候,实质上只有一个线程计算。使用多线程时,是几个线程之间切换计算,就像轮班工作一下,适合处理I/O密集型的任务。
  2. 对于python代码,多进程才是真正意义上的多个进程在同一时间同时计算,就像几个人同时工作,适合处理计算(CPU)密集型的任务
  3. 进程池就是我们将所要运行的东西,放到池子里,Python会自行解决多进程的问题

二 代码实现

1 调用函数传入单个参数

import multiprocessing as mp

def job(x):
    return x*x

def multicore():
    pool = mp.Pool() # 无参数时,使用所有cpu核
    # pool = mp.Pool(processes=3) # 有参数时,使用CPU核数量为3
    res = pool.map(job, range(10))
    print(res)
    
if __name__ == '__main__':
    multicore()

运行结果:
[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

2 调用函数传入一对参数

import multiprocessing as mp
import itertools

def job(r, item):
    (x, y) = item
    return x * y 

def multicore(z):
    x_y = list(itertools.product(range(10), range(10)))
    pool = mp.Pool()  # 无参数时,使用所有cpu核
    # pool = mp.Pool(processes=3) # 有参数时,使用CPU核数量为3
    res = pool.map(job, x_y)
    return res

if __name__ == '__main__':
    res = multicore()
    print(res)

3 调用函数传入多个参数

import multiprocessing as mp
import itertools
from functools import partial

def job(z, r, item):
    (x, y) = item
    return x * y + z + r
    
def multicore(z):
    x_y = list(itertools.product(range(10), range(10)))
    r = 2
    func = partial(job, z, r)
    pool = mp.Pool()  # 无参数时,使用所有cpu核
    # pool = mp.Pool(processes=3) # 有参数时,使用CPU核数量为3
    res = pool.map(job, x_y)
    return res

if __name__ == '__main__':
    res = multicore(1)
    print(res)
  • 3
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
Python进程是一种用于并行处理任务的机制,它可以有效地利用多核处理器的优势来提高程序的执行效率。而`map`函数是进程中的一个常用方法,它可以将一个可迭代对象中的每个元素传递给指定的函数进行处理,并返回处理结果的列表。 使用进程的`map`函数可以简化并行处理任务的编程过程。它接受两个参数:第一个参数是一个函数,用于对可迭代对象中的每个元素进行处理;第二个参数是一个可迭代对象,包含需要处理的数据。`map`函数会自动将可迭代对象中的元素分配给进程中的空闲进程进行处理,并返回处理结果的列表。 下面是一个使用进程`map`函数的示例代码: ```python import multiprocessing # 定义一个用于处理任务的函数 def process_task(item): # 对每个元素进行处理 result = item * 2 return result if __name__ == '__main__': # 创建进程,指定进程数量 pool = multiprocessing.Pool(processes=4) # 定义需要处理的数据 data = [1, 2, 3, 4, 5] # 使用进程map函数进行并行处理 results = pool.map(process_task, data) # 打印处理结果 print(results) ``` 在上述示例中,我们首先定义了一个用于处理任务的函数`process_task`,它将每个元素乘以2作为处理结果。然后,我们创建了一个进程`pool`,指定了进程数量为4。接下来,定义了需要处理的数据`data`,它是一个包含了5个整数的列表。最后,使用进程的`map`函数对数据进行并行处理,并将处理结果保存在`results`列表中。最终,我们打印出了处理结果。
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值