Python 爬虫进阶之多进程的用法

最新推荐文章于 2021-10-25 22:09:53 发布

- 打小就隔路à

最新推荐文章于 2021-10-25 22:09:53 发布

阅读量868

点赞数

分类专栏：爬虫文章标签： python java 多线程编程语言多进程

本文链接：https://blog.csdn.net/weixin_54787921/article/details/117964896

版权

本文探讨了Python爬虫中使用多进程的原因和优势，指出在Linux环境下多进程优于多线程。通过实例展示了如何使用Pool进行进程管理，提高爬虫效率。实测表明，多进程爬虫速度可提升约4倍。

摘要由CSDN通过智能技术生成

前言

在python爬虫中，一般用的是多进程进行爬取，因为多线程并不能提高CPU的使用率，而且多线程其实是交替执行，多进程才是并发执行。

多进程，顾名思义，多个进程并发执行，可以有效提高程序的执行效率，优点是非常稳定，即使有子进程崩溃了，主进程和其他进程依然可以继续执行，缺点是在windows下创建进程的开销比较大，而且如果进程太多，往往会影响整个系统的调度。
python

一、多进程的优势

为什么选用多进程而不选用多线程，这是考虑到了诸多的实际情况最终做出的选择。

在python环境下，多进程稍稍比多线程好实现好理解一点。
因为爬虫大多数都是运行在linux内核的服务器上面，而在linux操作系统下，多进程要比多线程更加合适，因为调度开销和多线程差不多，但是进程性能更好。如果在windows系统下跑爬虫的话，建议使用框架或者使用多线程。
爬虫毕竟不是服务器交互，没有人会开1k的线程去跑这个，所以一般情况下我们把自己爬虫的效率提升几倍即可。

二、多进程与单进程

先上一个多进程和单进程测试的结果：
python
我们可以发现，多进程执行比单进程速度快了一百多倍，所以说，并行大法好啊

我这里用的是Pool池的方法来使用多进程的

当使用Process类管理非常多（几十上百个）的进程时，就会显得比较繁琐，这是就可以使用Pool（进程池）来对进程进行统一管理。当池中进程已满时，有新进程请求执行时，就会被阻塞，直到池中有进程执行结束，新的进程请求才会被放入池中并执行。

三、实例

import multiprocessing
from bs4 import BeautifulSoup
import requests

def pageUrls(url):
    web_data = requests.get(url)
    soup = BeautifulSoup(web_data.text, 'lxml')
    sum = int(soup.select