你想快速并行地运行 CPU/IO 密集型任务?为什么不直接使用 C、C#、GoLang 或 Rust?尽管 python 比大多数语言慢,并且不是此类任务的首选,但它的直观性和社区支持使原型制作和快速迭代您的想法变得更加容易。需要我提醒你 python 有多少开源包吗?从 ML 到音频编辑,几乎任何东西都可以找到一个包!
问题陈述
我有一个函数需要执行以下操作:
1.从存储中读取一堆文件(I/O密集型)
- 对数据进行一些密集型计算(CPU Intensive)
- 将最终结果上传到云桶(I/O Intensive)
运行多线程与多进程
对于我的问题陈述,运行多进程而不是线程是有意义的,因为:
1.函数主要是CPU密集型而非IO密集型
2.每个函数调用都可以在自己的内存空间中运行
- 进程调度由 OS 而不是 Python 处理
4.不用担心Python全局解释器锁(GIL)
多处理模块
多处理模块有助于生成与线程模块非常相似的进程。
这是一个示例代码:
from multiprocessing import Pool
def functionToRunParallely(i)
# do Work
return i
noOfPools = 5
if __name__ == "__main__"
with Pool(noOfPools) as p:
p.map(functionToRunParallely,[arg1,arg2,...])
您可以将池数设置为与 CPU 中的内核数相同。如果函数是 CPU 密集型的,那么增加池的数量将占用更多的内存并不一定会提高速度。我们可以通过以下示例来验证这一点:
池数量对性能的影响
CPU 密集型任务的池数量与计算时间
我们将采用一个简单的函数来非常低效地计算 100000000 之前的自然数之和。下面的函数在我的系统上运行大约需要 3 秒
运行大约需要 3 秒的简单函数
# Simple function that takes ~3 seconds to run
def pureCpuIntensive(x):
sum=0
for x in range(100000000):
sum+=x
以下是结果:
Takeaways
- 池的数量仅与可用内核的数量有关。之后,所花费的时间大致恒定。
- 对于# of pools > 8,耗时波动,内存占用持续上升。
计算网络密集型任务所需的池数
我写了一个简单的后端,在发送请求之前将请求延迟 5 秒。我已将其部署在本地主机上,以消除结果中互联网连接的不确定性。我们将使用一个简单的函数向后端发出 GET 请求并保存请求。下面的函数在我的系统上运行大约需要 5 秒
def pureNetworkIntensive(i):
x =requests.get("http://localhost:8000")
以下是结果:
Takeaways
- 即使在池数量 > 可用核心数量之后,所用时间也会减少。这是因为当函数等待服务器响应时,多处理模块开始处理下一个函数。所以在这种情况下,池在等待响应时“共享”CPU 资源。
- 一旦池的数量超过可用核心的数量,在池之间切换就会产生开销。在某些情况下,开销可能大于首先使用多个池实现的最小化。
多处理模块的缺点
- 生成池和管理输入占用大量内存
- 局部变量不在子进程之间共享
- 未针对基于网络/IO 的功能进行优化
结论
多处理模块最适合并行运行大部分 CPU 密集型任务。这些函数有自己的内存空间,并且独立于其他函数运行。但是,在网络密集型功能的情况下,这不是最有效的运行方式。在这种情况下,多线程更有用和高效。
关于Python学习指南
学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后给大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!
包括:Python激活码+安装包、Python web开发,Python爬虫,Python数据分析,人工智能、自动化办公等学习教程。带你从零基础系统性的学好Python!
👉Python所有方向的学习路线👈
Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。(全套教程文末领取)
👉Python学习视频600合集👈
观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
温馨提示:篇幅有限,已打包文件夹,获取方式在:文末
👉Python70个实战练手案例&源码👈
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
👉Python大厂面试资料👈
我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。
👉Python副业兼职路线&方法👈
学好 Python 不论是就业还是做副业赚钱都不错,但要学会兼职接单还是要有一个学习规划。
👉 这份完整版的Python全套学习资料已经上传,朋友们如果需要可以扫描下方CSDN官方认证二维码或者点击链接免费领取【保证100%免费
】