多任务Python爬虫

一、多任务简介

1、为什么要使用多任务爬虫?

  • 在大量的url需要请求时,单线程/单进程去爬取,速度太慢,此时cpu不工作,浪费cpu资源。
  • 爬取与写入文件分离,可以规避io操作,增加爬取速度,充分利用cpu。

2、多任务分类

  • 进程:进程是操作资源分配的最小单位,一个运行的程序,至少包括一个进程,进程之间数据不能共享。(利用多核)
  • 线程:线程是cpu调度的最小单位,一个进程中至少含有一个线程,线程中数据是共享的,如果多个线程操作同一个对象时,需要考虑数据安全问题。(爬虫中最常用)
  • 协程:协程位于线程内部,如果一个线程中运行的代码,遇到IO操作时,切换到线程其他代码执行(最大程度的规避IO操作)

2、如何提高程序的运行速度

1、提高CPU的利用率

假如我们的程序有只有一个线程,CPU就只处理这一个线程。如果在程序中遇到IO操作。此时CPU就不工作了。休息的这段时间,就浪费了CPU的资源。

若我们的程序是多线程的,CPU会在这多个任务之间切换,如果其中一个线程阻塞了,CPU不会休息,会处理其他线程。

2、增加CPU数量

一个CPU同一时间只能护理一个任务,若我们增加CPU数量,那么多个CPU处理多个任务,也会提升程序的运行速度,例如使用多进程。

二、python中的threading模块(开启多线程)

cpython 解释器下的 python中没有真正的多线程(因为多个线程不能同时在多核上执行,只能在一个CPU上进行多个线程的切换轮流执行,在视觉效果上看起来同时在执行),造成这个情况的原因是因为GIL(全局性解释器锁),在一个进程中,多个线程是数据共享的,如果不设置全局解释性锁,多个线程可能在同一时间对同一个变量进行操作,造成变量的引用计数不正确,影响其进行垃圾回收,所以需要加全局性解释器锁。

2.1、多线程开启方法

from threading import Thread
1、使用函数
t = Thread(
					target=线程执行的任务(方法)名字,
					args = 执行方法的参数,是一个元组
				)---创建线程
t.start()---启动线程

2、使用类
class Mythread(Thread)
	def __init__(self,参数)
		self.参数=参数
		super(Mythread,self).__init__()
	
	def run(self):
		将需要多任务执行的代码,添加到此处

if __name__ == '__main__':
    my =  Mythread(参数)
    my.start()

2.2、线程中常用的几个方法

from threading import Thread, current_thread, enumerate, active_count
import time
import random


class My
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值