一、多任务简介
1、为什么要使用多任务爬虫?
- 在大量的url需要请求时,单线程/单进程去爬取,速度太慢,此时cpu不工作,浪费cpu资源。
- 爬取与写入文件分离,可以规避io操作,增加爬取速度,充分利用cpu。
2、多任务分类
- 进程:进程是操作资源分配的最小单位,一个运行的程序,至少包括一个进程,进程之间数据不能共享。(利用多核)
- 线程:线程是cpu调度的最小单位,一个进程中至少含有一个线程,线程中数据是共享的,如果多个线程操作同一个对象时,需要考虑数据安全问题。(爬虫中最常用)
- 协程:协程位于线程内部,如果一个线程中运行的代码,遇到IO操作时,切换到线程其他代码执行(最大程度的规避IO操作)
2、如何提高程序的运行速度
1、提高CPU的利用率
假如我们的程序有只有一个线程,CPU就只处理这一个线程。如果在程序中遇到IO操作。此时CPU就不工作了。休息的这段时间,就浪费了CPU的资源。
若我们的程序是多线程的,CPU会在这多个任务之间切换,如果其中一个线程阻塞了,CPU不会休息,会处理其他线程。
2、增加CPU数量
一个CPU同一时间只能护理一个任务,若我们增加CPU数量,那么多个CPU处理多个任务,也会提升程序的运行速度,例如使用多进程。
二、python中的threading模块(开启多线程)
cpython
解释器下的 python中没有真正的多线程(因为多个线程不能同时在多核上执行,只能在一个CPU上进行多个线程的切换轮流执行,在视觉效果上看起来同时在执行),造成这个情况的原因是因为GIL(全局性解释器锁),在一个进程中,多个线程是数据共享的,如果不设置全局解释性锁,多个线程可能在同一时间对同一个变量进行操作,造成变量的引用计数不正确,影响其进行垃圾回收,所以需要加全局性解释器锁。
2.1、多线程开启方法
from threading import Thread 1、使用函数 t = Thread( target=线程执行的任务(方法)名字, args = 执行方法的参数,是一个元组 )---创建线程 t.start()---启动线程 2、使用类 class Mythread(Thread) def __init__(self,参数) self.参数=参数 super(Mythread,self).__init__() def run(self): 将需要多任务执行的代码,添加到此处 if __name__ == '__main__': my = Mythread(参数) my.start()
2.2、线程中常用的几个方法
from threading import Thread, current_thread, enumerate, active_count import time import random class My