多任务Python爬虫

最新推荐文章于 2023-12-01 15:32:06 发布

VIP文章 Python新世界

最新推荐文章于 2023-12-01 15:32:06 发布

阅读量176

点赞数

文章标签： python Python编程编程语言

本文链接：https://blog.csdn.net/weixin_46089319/article/details/105221456

版权

一、多任务简介

1、为什么要使用多任务爬虫？

在大量的url需要请求时，单线程/单进程去爬取，速度太慢，此时cpu不工作，浪费cpu资源。
爬取与写入文件分离，可以规避io操作，增加爬取速度，充分利用cpu。

2、多任务分类

进程：进程是操作资源分配的最小单位，一个运行的程序，至少包括一个进程，进程之间数据不能共享。（利用多核）
线程：线程是cpu调度的最小单位，一个进程中至少含有一个线程，线程中数据是共享的，如果多个线程操作同一个对象时，需要考虑数据安全问题。（爬虫中最常用）
协程：协程位于线程内部，如果一个线程中运行的代码，遇到IO操作时，切换到线程其他代码执行（最大程度的规避IO操作）

2、如何提高程序的运行速度

1、提高CPU的利用率

假如我们的程序有只有一个线程，CPU就只处理这一个线程。如果在程序中遇到IO操作。此时CPU就不工作了。休息的这段时间，就浪费了CPU的资源。

若我们的程序是多线程的，CPU会在这多个任务之间切换，如果其中一个线程阻塞了，CPU不会休息，会处理其他线程。

2、增加CPU数量

一个CPU同一时间只能护理一个任务，若我们增加CPU数量，那么多个CPU处理多个任务，也会提升程序的运行速度，例如使用多进程。

二、python中的threading模块（开启多线程）

cpython 解释器下的 python中没有真正的多线程（因为多个线程不能同时在多核上执行，只能在一个CPU上进行多个线程的切换轮流执行，在视觉效果上看起来同时在执行），造成这个情况的原因是因为GIL（全局性解释器锁），在一个进程中，多个线程是数据共享的，如果不设置全局解释性锁，多个线程可能在同一时间对同一个变量进行操作，造成变量的引用计数不正确，影响其进行垃圾回收，所以需要加全局性解释器锁。

2.1、多线程开启方法

from threading import Thread
1、使用函数
t = Thread(
					target=线程执行的任务（方法）名字，
					args = 执行方法的参数，是一个元组
				)---创建线程
t.start()---启动线程

2、使用类
class Mythread(Thread)
	def __init__(self,参数)
		self.参数=参数
		super(Mythread,self).__init__()
	
	def run(self):
		将需要多任务执行的代码，添加到此处

if __name__ == '__main__':
    my =  Mythread(参数)
    my.start()

2.2、线程中常用的几个方法

from threading import Thread, current_thread, enumerate, active_count
import time
import random


class My

最低0.47元/天解锁文章

Python新世界

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
多任务Python爬虫

一、多任务简介1、为什么要使用多任务爬虫？在大量的url需要请求时，单线程/单进程去爬取，速度太慢，此时cpu不工作，浪费cpu资源。爬取与写入文件分离，可以规避io操作，增加爬取速度，充分利用cpu。 2、多任务分类进程：进程是操作资源分配的最小单位，一个运行的程序，至少包括一个进程，进程之间数据不能共享。（利用多核）线程：线程是cpu调度的最小单位，一个进程中至少含有一...
复制链接

扫一扫